百分点认知智能实验室出品:基于动态知识图谱的大规模数据集成技术
编者按 数据烟囱、信息孤岛已成为政府、企业在数据应用中不可回避的问题,都在寻求各种方案打破现状,实现数据融合已成当务之急。百分点在经历多个大型数据集成项目洗礼后,已经达到了业界领先水平,通过利用动态知识谱图技术,将模型与数据进行解耦,在业务处于探索期或业务变化十分迅速的场景下,能够极大地提升数据集成的效率,解决海量数据动态集成的难题,并且能支持千万级、PB级的实时导入分析。 作者:倪路 在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据…… 在这种场景下,如果利用常规的数据集成实现手段,就要调整表结构、改写ETL任务代码、删除已经集成过的数据,并重新进行数据集成。但这在大规模数据集成的场景下,几乎是不能接受的,比如已经集成数百张表、入库10PB数据,如果要重新进行一遍集成,可能需要数以月记。这时,具备数据动态集成的能力就十分重要了。 因此,如何在海量数据之上将动态的数据进行关联融合,同时满足融合快速、融合无信息丢失等业务要求,并将新增的数据快速融入到当前的图谱中,不间断提供知识服务是目前的业界难题。 基于动态知识图谱的数据集成实现方案 常规的数据集成方案通常有以下痛点: 1.只能针对特定行业的数据进行集成