知识挖掘

你说的曾经没有我的故事 提交于 2019-12-06 02:46:53

从已有的实体及实体关系中挖掘新的知识,包括内容挖掘和结构挖掘
1. 内容挖掘:实体链接
文本中的实体--链向--知识库中目标实体,建立文本与知识库的联系
流程:
(1)实体指称识别
              通用命名实体识别技术
              词典匹配技术
(2)候选实体生成
              表层名字扩展:实体是缩略词或者全称的一部分
              搜索引擎:将实体提及和上下文文字提交到搜索引擎,根据返回结果生成候选实体
              构建查询实体引用表
(3)候选实体消歧
             基于图的方法:将实体指称,实体以及他们之间的关系通过图的形式表示出来,然后对关系进行协同推理
             基于概率生成模型:对实体提及和实体的联合概率进行建模
             基于主题模型建模:实体在文本中的相容度,实体与话题的一致性进行联合建模
             基于深度学习:特征向量(实体E/拥有的关系R/实体类型ET/实体描述D)--词散列降维--多层非线性映射--语义层--语义相关度
2.  规则挖掘
(1)归纳逻辑程序设计 ILP(Inductive logic programming)
(2)路径排序算法 PRA (Path ranking algorithm)
              两个实体的一组关系路径--预测--实体可能存在的关系
              步骤:
                    1. 特征选择:选择对预测目标潜在有用的关系路径,计算随机游走的准确度和覆盖度
                    2. 特征计算:对于实体对(h,t)和某一特征路径(r),计算从沿路径r到达t的概率
                    3. 关系分类:为每一个目标关系训练一个分类模型

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!