数据抽取

知识图谱综述

三世轮回 提交于 2019-11-26 20:21:14
知识图谱综述 通用知识图谱VS行业知识图谱 区别 通用知识图谱 行业知识图谱 广度/深度 广度 知识类型/来源 常识性知识, 百科知识,语言学知识 精度 低 面向群体 普通用户 代表 谷歌大脑 类型 模式 数据模型固定 数据量 获取难度 公共数据 领域知识图谱 挑战 1.多源异构数据难以融合 2.数据模式动态变迁困难 3.非结构化数据计算机难以理解 4.分散的数据难以统一消费利用 解决方案   • 挑战1:使用知识图谱(本体)对各种类型的数据进行抽象建模,基于可动态变化 的“概念—实体—属性—关系”数据模型,实现各类数据的统一建模。   • 挑战2:使用可支持数据模式动态变化的知识图谱的数据存储,实现对大数据及数 据模式动态变化的支持。   • 挑战3:利用信息抽取技术,对非结构化数据及半结构化数据进行抽取和转换,形 成知识图谱形式的知识。   • 挑战4:在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可 视化等技术,提供统一的数据检索、分析和利用平台。 联系 通用知识图谱为行业知识图谱提供基础/体系,细化,则是需要搜寻相应的行业知识 行业知识图谱能够通过融合到通用知识图谱当中 关键技术  或者这张图(好好感觉) 知识建模  就是建立图谱的数据模式,就是对整个知识图谱的结构进行定义,构建 自顶向下的方法:专家手工编辑形成数据模式 自底向上的方法:

知识图谱基础知识之三——知识图谱的构建过程

随声附和 提交于 2019-11-26 20:18:36
前两次介绍了知识图谱的基本概念和知识图谱的构建方式,这次介绍一下知识图谱系统的构建过程。 1 知识图谱的总体构建思路 如图所示,从原始的数据到形成知识图谱,经历了知识抽取、知识融合(实体对齐)、数据模型构建、质量评估等步骤。 原始的数据,按照数据的结构化程度来分,可以分为结构化数据、半结构化数据和非结构化数据,根据数据的不同的结构化形式,采用不同的方法,将数据转换为三元组的形式,然后对三元组的数据进行知识融合,主要是实体对齐,以及和数据模型进行结合,经过融合之后,会形成标准的数据表示,为了发现新知识,可以依据一定的推理规则,产生隐含的知识,所有形成的知识经过一定的质量评估,最终进入知识图谱,依据知识图谱这个数据平台,可以实现语义搜索,智能问答,推荐系统等一些应用。 以下对知识图谱构建中的步骤进行详细的介绍。 2 知识抽取 我们将原始数据分为结构化数据、半结构化数据和非结构化数据,根据不同的数据类型,我们采用不同的方法进行处理。 2.1 结构化数据处理 针对结构化数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的数据转换为RDF数据(linked data),普遍采用的技术是D2R技术。D2R主要包括D2R Server,D2RQ Engine和D2RRQ Mapping语言。 D2R Server 是一个 HTTP Server