知识图谱构建过程
知识图谱构建技术体系 知识获取:从不同来源、不同结构的数据中进行知识的提取,形成结构化的知识,当前知识的获取主要针对文本数据进行 实体抽取 众包:百度百科、维基百科,存储机器可读的、具有一定结构的数据 爬虫:通过定义网页中的实体、属性、关系的 pattern,实现对网页数据的获取,例如 Google、Baidu 的搜索引擎 机器学习:将数据变成考研理解的知识,例如通过文本分类、主题模型等,可以获取文本的特征,这些特征可以理解为知识 专家:垂直领域的专家经验 NER:命名实体识别 关系抽取 将文本的关系映射到实体关系三元组上 分开研究实体和关系抽取,容易造成错误的累计,可以考虑同时研究 事件抽取 事件是发生在某个特定时间、地点,由角色参与的行为序列 现有的知识库描述的是实体之间的静态关系,事件描述粒度更大的、动态的、结构化的知识 属性抽取 属性主要针对实体而言,实现对实体的完整性描述 可以将属性抽取任务转变为关系抽取任务:实体——属性之间的名词性关系 挑战 缺乏大规模标注数据:主要采用监督的方法 开放域上知识抽取的局限性:数据规模的扩展;数据主题的鲁棒性 跨语言抽取 跨媒体抽取 视觉实体和关系的抽取 视觉事件的自然语言描述 跨媒体信息融合 知识表示:将现实世界的知识转变为计算机可识别和处理的内容,是一种描述知识的数据结构,用于对知识的一种描述和约定 基于符号的知识表示