2019 Journal of Web Semantics_Linking and disambiguating entities across heterogeneous RDF graphs笔记整理
一、 论文整理思路流程
1.1 论文的相关研究工作
- CBD(Concise Bounded Descriptions )简洁有界描述
- 面对数据相关参数(如选择哪一个属性作为标记)时减少人工识别的困难
- 根据大量语义实例和现实实例的对数据异质性的分类
- 提出了基于CBD的实例分析框架,用于在匹配阶段对数据来源进行表示和比较
- 一种新策略,用于自动识别移除两个数据集之间的“问题”属性(不适合作为标签的属性)
- 对于大量开源基准的多方面经过检验的衡量标准(基准的衡量标准)
- 有简易交互界面的本文提出的系统的开源实例
- 首先提出了数据异质性的分类:根据先前的研究,本文专注于两个数据集之间对于某一信息描述的不同从而发现形式上(属性还是类别)值上和结构上的异质性。本文尤其关注且使用高度异质化的现实经典音乐数据集和大量IM@OAEI产生的合成基准。
1.2 论文主要解决的问题
1.3 论文解决问题的过程
1) 数据值维度的异质性:术语异质性(由于词语的同义性、不同词语的多义性产生,也包括少量的单词拼写错误)、语言异质性(不同语言互相翻译造成的)、数据属性和对象属性异质性(如同一条信息可以被txt表示也可以是用url表示)
2) 实体维度的异质性:结构异质性(由于粒度的不同造成)、属性深度异质性(同一信息在不同的图中可能到信息来源的距离不同)、描述异质性(一条实例可以在另一个数据集中被更多的信息描述)、关键词异质性
3) 逻辑维度的异质性:分类异质性、属性异质性
4) 数据质量维度的异质性:数据类型异质性、数据集一致性
- 数据链接包括预处理(设置参数、处理数据)、匹配、后处理(移除错误链接,插入新链接)。本文着重考虑实际的实例比较阶段前的细节过程,即预处理阶段的简化和自动化。
- 选择分类和属性:由于目前的自动产生键值系统产生的键值很多都不能作为识别符。因此衡量产生的键值就十分重要,对产生的键值进行衡量选取对链接两个数据集最有用的作为标签。
- 链接规范:作为两个数据集之间比较的元素的设置、结合记中相似度衡量标准的复杂相似度标准、相似度衡量的阈值设置
- Legato的数据链接:该系统将两个RDF图作为输入,然后自动进行预处理,随后经过实例匹配阶段、实例消歧、连接选择后产生一个链接集作为最终结果。
- 相关定义:
1) 本文使用“来源”或是“实例”(resource\instance)作为一条实体的标识符(通常为三元组中的s)
2) RDF数据键值:已知两个来源s1,s2,以及他们的谓语(属性)。则键值就是所有s1,s2的属性值相同的属性K ={P :P ⊆pred(G) ,任意s1,s2 ∈ subj(G) 且 p(s1) = p(s2),则∀p ∈ P}
- CBD:是RDF图的子图,子图是针对某一个来源r,这个子图包含所有s是r的三元组、以及此时在CBD中的三元组的o为空白节点并以此空白节点为s的三元组
- 数据链接:找出两个RDF图之间所有等价属性
- CBD(r)的前继:以r为o的三元组
- CBD(r)的后继:以r为s的三元组
- ↑ CBD(r):包括CBD(r)以及其所有的前继
- ↓ CBD(r):包括CBD(r)以及其所有的后继
- ↕ CBD(r):包括CBD(r)以及其所有的前继、后继
- CBD∗(r):包括上述所有在内的三元组
- 实例分析:RDF图G的文字成分是L(G),则实例文本f(r)是所有L(G)中属于CBD*的集合
- Legato的构成模块:
1) 属性过滤:过滤掉无法作为识别符的属性,仅留下某一单一属性作为两个来源的属性标识符
2) 主要匹配模块:包括基于CBD的实例分析、映射到向量的实例分析(将实例映射到向量空间并且对向量进行限制和赋予权重)、基于向量的实例匹配
- 实例消歧模块:以向量空间作为输入,最后产生以相似度为标准的聚集(相似度高的数据集聚集在一起),并依此产生候选链接集。
- 链接合并:对于两个来源(rs和目标源rt)之间的任意链接l = (rs,rt)放入候选链接集之中,然后在确定集中寻找l’=(rs, r′ t),若找到则将l从候选集中删去。
- 确定数据集的异质性
1) 数据值异质性:将实例视为单词包并映射到向量中,计算向量的相似度
2) 逻辑异质性:使用CBD中距离来源深度为n的节点进行考虑
1.4 论文使用的实验方法
- 使用的数据集:DOREMUS(包括9-HT,4-HT(heterogeneities)和FP-trap( false positives trap))、合成数据集(SPIMBENCH 2015、SPIMBENCH 2016、SPIMBENCH 2017)
- 情境设置
1) 衡量自动识别生成链接的问题属性(用于评估自动属性过滤模块的效率)
2) 实例分析选择的影响
3) 键值的使用对于实例消歧的影响
4) Legato与其他系统的总体的比较
5) Legato与其他链接自动生成方法的比较
- 使用指标:F-m、P 、R
- 属性过滤效率:考虑所有属性然后移除问题属性,在DOREMUS数据集评估。结果发现,使用自动属性过滤的方法在HT、9-HT数据集中的表现较好
- 实例分析效率:考虑将不同的实例分析方面运用到Legato中,使用数据集OAEI2017。结果发现考虑↕ CBD分析获得更高的F-m分数
- 后续过程的效率:主要考虑实例消歧和链接合并模块,使用DOREMUS2017数据集。考虑候选集中链接在确定集中的比例、删除或是添加的链接的比例。结果发现后续程序在高度相似的数据集中极为重要。
- 总体效率:使用Legato的全自动版本,与IM@OAEI2015、2016、2017的参赛工具进行比较。结果发现Legato在数据集中包含实体维度的异质性时表现较好
- 链接自动生成效率:Legato与EAGLE和WOMBAT进行比较,结果表现Legato更为出色。
1.5 实验最终结果的评估
1.6 论文的后续工作
未来专注于数据集之间的信息互补性,即解决实体被互补的属性所描述且存在于不同RDF数据集之中导致缺少比较信息的问题
二、 论文创新点
提出一种新的自动识别移除两个数据集之间的“问题”属性的策略、可以自动发现RDF图之间链接的框架Legato
三、 论文中使用的技术和方法
IM@OAEI方法
RDF自动链接工具EAGLE等
Legato框架
四、 建议阅读参考文献
[48]、 [51]、http://islab.di.unimi.it/content/im_oaei/2016、[5]
来源:https://www.cnblogs.com/hwx1997/p/12444108.html