从已有的实体及实体关系中挖掘新的知识,包括内容挖掘和结构挖掘
1. 内容挖掘:实体链接
文本中的实体--链向--知识库中目标实体,建立文本与知识库的联系
流程:
(1)实体指称识别
通用命名实体识别技术
词典匹配技术
(2)候选实体生成
表层名字扩展:实体是缩略词或者全称的一部分
搜索引擎:将实体提及和上下文文字提交到搜索引擎,根据返回结果生成候选实体
构建查询实体引用表
(3)候选实体消歧
基于图的方法:将实体指称,实体以及他们之间的关系通过图的形式表示出来,然后对关系进行协同推理
基于概率生成模型:对实体提及和实体的联合概率进行建模
基于主题模型建模:实体在文本中的相容度,实体与话题的一致性进行联合建模
基于深度学习:特征向量(实体E/拥有的关系R/实体类型ET/实体描述D)--词散列降维--多层非线性映射--语义层--语义相关度
2. 规则挖掘
(1)归纳逻辑程序设计 ILP(Inductive logic programming)
(2)路径排序算法 PRA (Path ranking algorithm)
两个实体的一组关系路径--预测--实体可能存在的关系
步骤:
1. 特征选择:选择对预测目标潜在有用的关系路径,计算随机游走的准确度和覆盖度
2. 特征计算:对于实体对(h,t)和某一特征路径(r),计算从沿路径r到达t的概率
3. 关系分类:为每一个目标关系训练一个分类模型
来源:https://www.cnblogs.com/hapyygril/p/11958773.html