数据融合

如何构建批流一体数据融合平台的一致性语义保证?

馋奶兔 提交于 2019-12-01 09:45:09
作者:陈肃 整理:周奇,Apache Flink 社区志愿者 本文根据陈肃老师在 Apache Kafka x Flink Meetup 深圳站的分享整理而成,文章首先将从数据融合角度,谈一下 DataPipeline 对批流一体架构的看法,以及如何设计和使用一个基础框架。其次,数据的一致性是进行数据融合时最基础的问题。如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义。 另外,DataPipeline 目前使用的基础框架为 Kafka Connect。为实现一致性的语义保证,我们做了一些额外工作,希望对大家有一定的参考意义。 最后,会提一些我们在应用 Kafka Connect 框架时,遇到的一些现实的工程问题,以及应对方法。尽管大家的场景、环境和数据量级不同,但也有可能会遇到这些问题。希望对大家的工作有所帮助。 一、批流一体架构 批和流是数据融合的两种应用形态 下图来自 Flink 官网。传统的数据融合通常基于批模式。在批的模式下,我们会通过一些周期性运行的 ETL JOB,将数据从关系型数据库、文件存储向下游的目标数据库进行同步,中间可能有各种类型的转换。 另一种是 Data Pipeline 模式。与批模式相比相比, 其最核心的区别是将批量变为实时:输入的数据不再是周期性的去获取,而是源源不断的来自于数据库的日志、消息队列的消息。进而通过一个实时计算引擎

如何构建批流一体数据融合平台的一致性语义保证?

风格不统一 提交于 2019-12-01 02:11:20
本文根据陈肃老师在 Apache Kafka x Flink Meetup 深圳站的分享整理而成,文章首先将从数据融合角度,谈一下 DataPipeline 对批流一体架构的看法,以及如何设计和使用一个基础框架。其次,数据的一致性是进行数据融合时最基础的问题。如果数据无法实现一致,即使同步再快,支持的功能再丰富,都没有意义。 另外,DataPipeline 目前使用的基础框架为 Kafka Connect。为实现一致性的语义保证,我们做了一些额外工作,希望对大家有一定的参考意义。 最后,会提一些我们在应用 Kafka Connect 框架时,遇到的一些现实的工程问题,以及应对方法。尽管大家的场景、环境和数据量级不同,但也有可能会遇到这些问题。希望对大家的工作有所帮助。 一、批流一体架构 批和流是数据融合的两种应用形态 下图来自 Flink 官网。传统的数据融合通常基于批模式。在批的模式下,我们会通过一些周期性运行的 ETL JOB,将数据从关系型数据库、文件存储向下游的目标数据库进行同步,中间可能有各种类型的转换。 另一种是 Data Pipeline 模式。与批模式相比相比, 其最核心的区别是将批量变为实时:输入的数据不再是周期性的去获取,而是源源不断的来自于数据库的日志、消息队列的消息。进而通过一个实时计算引擎,进行各种聚合运算,产生输出结果,并且写入下游。 现代的一些处理框架

知识图谱综述

三世轮回 提交于 2019-11-26 20:21:14
知识图谱综述 通用知识图谱VS行业知识图谱 区别 通用知识图谱 行业知识图谱 广度/深度 广度 知识类型/来源 常识性知识, 百科知识,语言学知识 精度 低 面向群体 普通用户 代表 谷歌大脑 类型 模式 数据模型固定 数据量 获取难度 公共数据 领域知识图谱 挑战 1.多源异构数据难以融合 2.数据模式动态变迁困难 3.非结构化数据计算机难以理解 4.分散的数据难以统一消费利用 解决方案   • 挑战1:使用知识图谱(本体)对各种类型的数据进行抽象建模,基于可动态变化 的“概念—实体—属性—关系”数据模型,实现各类数据的统一建模。   • 挑战2:使用可支持数据模式动态变化的知识图谱的数据存储,实现对大数据及数 据模式动态变化的支持。   • 挑战3:利用信息抽取技术,对非结构化数据及半结构化数据进行抽取和转换,形 成知识图谱形式的知识。   • 挑战4:在知识融合的基础上,基于语义检索、智能问答、图计算、推理、可 视化等技术,提供统一的数据检索、分析和利用平台。 联系 通用知识图谱为行业知识图谱提供基础/体系,细化,则是需要搜寻相应的行业知识 行业知识图谱能够通过融合到通用知识图谱当中 关键技术  或者这张图(好好感觉) 知识建模  就是建立图谱的数据模式,就是对整个知识图谱的结构进行定义,构建 自顶向下的方法:专家手工编辑形成数据模式 自底向上的方法:

知识图谱入门 (六) 知识融合

耗尽温柔 提交于 2019-11-26 20:14:45
欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节主要介绍知识融合相关技术,首先介绍了什么是知识融合,其次对知识融合技术的流程做一个介绍并对知识融合常用工具做一个简单介绍。 知识融合简介 知识融合,即合并两个知识图谱(本体),基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。需要确认的是: 等价实例 等价类/子类 等价属性/子属性 一个例子如上图所示,图中不同颜色的圆圈代表不同的知识图谱来源,其中在dbpedia.org中的Rome 和geoname.org的roma是同一实体,通过两个sameAs链接。不同知识图谱间的实体对齐是KG融合的主要工作。 除了实体对齐外,还有概念层的知识融合、跨语言的知识融合等工作。 这里值得一提的是,在不同文献中,知识融合有不同的叫法,如本体对齐、本体匹配、Record Linkage、Entity Resolution、实体对齐等叫法,但它们的本质工作是一样的。 知识融合的主要技术挑战为两点: 数据质量的挑战: 如命名模糊,数据输入错误、数据丢失、数据格式不一致、缩写等。 数据规模的挑战: 数据量大(并行计算)、数据种类多样性、不再仅仅通过名字匹配、多种关系、更多链接等。 知识融合的基本技术流程 知识融合一般分为两步,本体对齐和实体匹配两种的基本流程相似,如下:

知识图谱入门——知识融合

元气小坏坏 提交于 2019-11-26 20:12:54
文章首发于博客 du_ok’s Notes ,本文链接为 知识图谱入门——知识融合 本文介绍了知识融合相关的技术和典型的知识融合工具。 知识融合相关概念 相关的术语: 知识融合 (Knowledge Fusion) 本体对齐 (Ontology Alignment) 本体匹配 (Ontology Matching) Record Linkage (传统数据库领域) Entity Resolution (传统数据库领域) 实体对齐 (Entity Alignment) 上面的术语的基本问题都是将来自多个来源的关于同一个实体或概念的描述信息融合起来。 本体对齐和本体匹配可认为是等价的,它们包含了概念层的融合 后面三个多指数据层的融合 知识融合目标是融合各个层面(概念层、数据层?)的知识,在合并两个知识图谱(本体)时,需要确认: 等价实例(数据层面) 等价类/子类 等啊几属性/子属性 数据层的融合: 上图是将猫王从YAGO和ElvisPedia进行融合的例子,在 融合最主要的工作是实体的对齐 ,也就是找出等价实例,图中的sameAs就是融合的关键步骤。 知识图谱的构建中经常需要融合多种不同来源的数据: 概念层的融合: 知识融合还包括概念层的融合(包括跨语言的融合:如将中文医疗知识图谱与UMLS融合) 知识在线融合: 知识融合需要: ① 确定哪些会对齐在一起; ②

知识图谱之知识融合

房东的猫 提交于 2019-11-26 20:11:58
最近在“小象学院”上知识图谱的课程,做了一些笔记,现整理了一下 1、什么是知识融合 将来自不同知识库的同一实体融合在一起 目标:融合各层面的知识 合并两个知识图谱(本体),需要确认的是: (1)等价实例 实体的匹配 左右两个人是同一个人 samsAs 猫王 (2)等价类/子类 摇滚歌手是歌手的子类 subClassOf (3)等价属性/子属性 出生于出生日期是等价的属性 subPropertyOf 上图中左右两个是同一个人,只是来自不同的知识库,一个来自YAGO,一个来自ElvisPedia 另一个例子: 来源于不同知识库的“自由女神像” 知识图谱的构建经常需要融合多种不同来源的数据 知识对齐是知识图谱融合的主要工作 上图中的边表示“sameAs”,边越粗,表示sameAs的比例越高,位于中心与其他的节点或数据源边越多,表示它的领域越开放,即充分的与其他领域的重合度 图中不同的颜色代表不同的知识图谱来源, 中文百科中的等价实例: 在不同的文献中,知识融合有不同的叫法,如本体对齐、本体匹配、Record Linkage、Entity Resolution、实体对齐等叫法,但它们的本质工作是一样的。 知识图谱的基本问题是怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来,如下图: 上图中将不同表现形式的人统一一下 知识融合的主要技术挑战 目前知识融合的主要技术挑战有两点: 1