cs224u作业 :基于远程监督的关系抽取-3

六眼飞鱼酱① 提交于 2020-07-29 10:35:26

cs224u作业 :基于远程监督的关系抽取-3 hw_rel_ext.ipynb

__author__ = "Bill MacCartney and Christopher Potts"
__version__ = "CS224u, Stanford, Spring 2020"

目录

原型系统

这里有许多选择,这个作业可以很容易地发展成一个项目。以下是一些建议:

  • 尝试不同的分类器模型,从sklearn及其他模型构建 。
  • 增加一个特征来表示中间词的长度。
  • 增加词袋的表示形式,包括bigrams或者trigrams(而不仅仅是unigrams)。
  • 基于实体的特征。
  • 根据两个实体提到的上下文(不是中间词)——也就是第一次提到之前或第二次提到之后的单词——来试验特征。
  • 尝试增加捕获语法信息的特征,比如Mintz等人使用的依赖路径特征,NLTK工具包包含各种可能有帮助的解析算法。
  • 词袋表示法不允许跨单词类别(如人名、地点或公司名称)进行泛化。可以使用GloVe单词嵌入。

#1. try on stacking existing featurizer 
featurizers_1 
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!