知识图谱

百分点认知智能实验室出品:基于动态知识图谱的大规模数据集成技术

瘦欲@ 提交于 2020-07-27 14:46:09
编者按 数据烟囱、信息孤岛已成为政府、企业在数据应用中不可回避的问题,都在寻求各种方案打破现状,实现数据融合已成当务之急。百分点在经历多个大型数据集成项目洗礼后,已经达到了业界领先水平,通过利用动态知识谱图技术,将模型与数据进行解耦,在业务处于探索期或业务变化十分迅速的场景下,能够极大地提升数据集成的效率,解决海量数据动态集成的难题,并且能支持千万级、PB级的实时导入分析。 作者:倪路 在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据…… 在这种场景下,如果利用常规的数据集成实现手段,就要调整表结构、改写ETL任务代码、删除已经集成过的数据,并重新进行数据集成。但这在大规模数据集成的场景下,几乎是不能接受的,比如已经集成数百张表、入库10PB数据,如果要重新进行一遍集成,可能需要数以月记。这时,具备数据动态集成的能力就十分重要了。 因此,如何在海量数据之上将动态的数据进行关联融合,同时满足融合快速、融合无信息丢失等业务要求,并将新增的数据快速融入到当前的图谱中,不间断提供知识服务是目前的业界难题。 基于动态知识图谱的数据集成实现方案 常规的数据集成方案通常有以下痛点: 1.只能针对特定行业的数据进行集成

[秀璋带你读论文] 拿什么来拯救我的拖延症?初学者如何提升编程兴趣及LATEX入门详解

别来无恙 提交于 2020-07-27 11:39:53
又是在凌晨三点赶作业,又是在Deadline前去熬夜,一次次无眠,一次次抱怨。为什么三年前、两年前、一年前,甚至是昨天,我都下定决心“从现在开始读顶会论文”,却又悄悄选择逃避;为什么我的收藏夹存了很多学习资料和视频,然而却没有再次翻起;为什么无数次告诫自己一定要卸载游戏和社交APP,开始好好学习,但明天又会继续下载去放纵自己。我们忙碌,我们孤独,我们在一遍遍地逃避和自我安慰中变得惴惴不安,拖延和等待终将击垮我们的斗志。人生几何,去日良多,不要再让拖延彻底吞噬了你我! 为了改变,为了前行。因此就有了这样一篇文章,也有了《秀璋带你看论文》新的系列,同时也解答了一些初学编程博友的疑惑。本文将分享作者这些年学习、编程和科研的经历,也将详细介绍LATEX工具的用法,就当是开启我们科研之门的钥匙。注意,本文欢迎大家对号入座,闭上眼睛、扪心自问,你有拖延症吗?你是不是也准备开始学习一门新的编程技术,却又立刻放弃;你是不是无数次在截止日期前通宵达旦、痛心不已?你是不是立下很多flag却没有付诸以行动而更改计划呢?如果这篇文章能唤起你去学习,去奋斗,去拼搏,足矣。如果你能坚持一个月、半年、一年,甚至几年,去做自己想做的事情,去追逐心中的乌托邦。那么,我希望你再回过头来找到这篇文章,告诉你的好友秀璋,我们曾一起拼搏前行,这种素未谋面却相互鼓励的感觉真好! 更重要的是,希望大家督促我

万字长文带你纵览 BERT 家族

醉酒当歌 提交于 2020-07-27 09:31:49
     自18年底谷歌BERT问世以后,NLP便逐渐步入bert时代,bert家族儿孙满堂,如RoBERTa、ALBert、ERNIE等等,这些bert们正在给并持续给nlp领域输入无限生机,让人工智能皇冠上的明珠更加光彩夺目,在其光芒的照耀下,人类的人工智能之路必定越来越清晰、明朗。   通过阅读大量博客资料,知乎专栏和论文,文本以通俗易懂而不失专业的方式总结了Bert以及其13个衍生版本,分享给大家,不足之处,望请指出。后期会不定期分享各个版本bert的详细解读以及实战代码,敬请期待。    1    BERT   论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》   论文地址:https://arxiv.org/pdf/1810.04805   作者/机构:google   年份:2018.10    1.1 概述   Bert是基于Transformer的深度双向预训练语言模型,神经语言模型可直接用于下游NLP任务的微调。Bert的出现使finetune技术应用于NLP领域真正走向成熟,并在工业界得到了广泛的应用,在不太消耗算力的情况下能显著提升各类任务的性能;在学术界也成为了研究热点,Bert出现会后,基于Bert的各类任务的SOTA模型也逐渐出现

非常有趣的的免费API接口,基本上很全了

天大地大妈咪最大 提交于 2020-07-27 04:06:05
一、图灵聊天机器人 http://doc.tuling123.com/openapi2/263611 二、百度地图开放平台 http://lbsyun.baidu.com/index.php?title=webapi 三、Eolinker - API Shop 生活常用 常见疾病查询: https://www.apishop.net/#/api/detail/?productID=215 全国天气预报: https://www.apishop.net/#/api/detail/?productID=76 今日热闻查询: https://www.apishop.net/#/api/detail/?productID=92 邮编查询: https://www.apishop.net/#/api/detail/?productID=73 实时空气质量数据查询: https://www.apishop.net/#/api/detail/?productID=83 邮编查询: https://www.apishop.net/#/api/detail/?productID=73 成语大全: https://www.apishop.net/#/api/detail/?productID=93 万年历查询: https://www.apishop.net/#/api/detail/

构建知识图谱-初学

孤街醉人 提交于 2020-07-27 01:17:21
本文内容源自 medium文章 A Knowledge Graph understanding and implementation tutorial for beginners[1] 目录 什么是知识图谱? 如何搭建一个简单的知识图谱? 什么是知识图谱? 知识图谱的内容通常以三元组形式存在, Subject-Predicate-Object (spo)。 举个栗子: Leonard Nimoy was an actor who played the character Spock in the science-fiction movie Star Trek 对上面的句子可以抽取到如下三元组: 以知识图谱形式可以表示为: 上述由节点和关系组成的图,就是一个简单的知识图谱。 如何搭建一个简单的知识图谱? 可以分为以下两大步骤: 知识提取 信息抽取,获取三元组 实体识别、实体链接、实体消歧(Disambiguation)、实体统一(Entity Resolution) 图构建 存储 查询 知识提取步骤是构建知识图谱的关键,三元组可以通过依存分析得到。 动手构建一个简单知识图谱 此处只显示代码执行过程与结果,完整代码请见 github . 1. 三元组提取 借助spacy inputText = 'Startup companies create jobs and innovation.

十年育林,百度NLP已枝繁叶茂

元气小坏坏 提交于 2020-07-25 11:47:34
种一棵树,最好的时间是十年前,其次是现在。——Dambisa Moyo 机器之心原创,作者:张倩。 7 月 10 日,自然语言处理顶会 ACL 2020 落下帷幕。本次大会共收到 3429 篇论文投稿,其中 779 篇被接收,接收率为 22.7%,与去年持平,低于近年来大部分年份的接收率。 在这 779 篇论文中,有 185 篇来自中国大陆,占被接收论文总数的 23.7%,仅次于美国。此外,今年的最佳论文二作和最佳 demo 论文一作均为华人学生。 然而,很多人可能不知道,2000 年 ACL 年会在中国香港举办时,只有微软中国研究院的论文来自中国大陆;到了 2005 年,来自大陆的论文也只有三篇。 很多变化是过去十几年发生的,尤其是过去的十年。在这十年里,中国的 NLP 学界在 ACL 年会中的投稿数、被接收论文数逐年上升,同时,中国的 NLP 学者也实现了多个 “第一次” 的突破: 2013 年,王海峰出任 ACL 五十年来首位华人主席; 2014 年,吴华出任 ACL 程序委员会主席,成为中国企业首位 ACL 程序委员会主席; 2015 年,ACL 年会首次在中国举办;大会上,哈工大教育部语言语音重点实验室主任李生教授获得 ACL 终身成就奖,成为首个获得该奖项的华人; 2016 年,赵世奇当选 ACL 秘书长,成为首位当选该职位的亚洲人; 2018 年,ACL

GAITC专题论坛丨AI女性:让科学绽放智慧柔美光辉

北城以北 提交于 2020-07-24 15:34:11
     020全球人工智能技术大会将于7月25-26日登陆杭州未来科技城。除了令人瞩目的大会主旨论坛,同期举行的20场专题论坛嘉宾层次高、主题范围广,聚焦模式识别、脑科学与人工智能等人工智能多个热门领域,内容精彩纷呈,观点将极具创见和现实针对性。   在国家不断鼓励创新的时代背景下,越来越多的女科学家不断坚持梦想,在科学研究中自立自强、自尊自信,绽放出耀眼光芒,真正撑起了祖国科研事业的“半边天”。7月26日上午,由北京理工大学人工智能研究院院长、特聘教授、CAAI Fellow黄河燕;澎思科技首席科学家、新加坡研究院院长申省梅担任论坛主席的 AI女性未来论坛 将拉开帷幕。当前,我国女性科学家的人数远远少于男性,科研界对科研女性的流失现象越来越重视,而激励她们继续从事科学事业显得尤为关键。敬请锁定本场论坛,让我们共同聆听“她声音”,成就“她力量”。 大会官网   扫码访问大会官网,获取最新会议动态   加入2020GAITC交流群,了解更多会议精彩内容 论坛主席       黄河燕    北京理工大学人工智能研究院院长、特聘教授    CAAI Fellow   CAAI第六、七届副理事长,CAAI女科工委主任委员;教育部计算机专业教育指导委员会副主任委员、中国中文信息学会和中国软件行业协会副理事长、信息技术新工科产学研联盟常务副理事长兼秘书长

Jure Leskovec等顶尖学者倾情授课,斯坦福知识图谱课程完结(B站可看)

拈花ヽ惹草 提交于 2020-07-24 13:30:44
斯坦福知识图谱春季课程视频上线 B 站,领域内顶尖学者和业界大牛倾情授课,对知识图谱感兴趣的小伙伴赶紧去观看吧! 机器之心报道,参与:杜伟、魔王。 从 Google 搜索,到聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,这些应用无一不跟知识图谱相关。知识图谱在技术领域的热度也在逐渐上升。 但目前关于知识图谱的专门课程并不多,不过大家不用担心。斯坦福大学今年春季开设的 CS520《知识图谱》课程已经结课,并放出了全部课程 slide 和授课视频。这些视频也已经上传至 B 站。 B 站视频链接: https://www. bilibili.com/video/BV1D 5411W7Ri/ 这门课程是斯坦福大学计算机科学系开设的 2020 春季课程,共分 10 节完成,每周一节。首节课程开始于 2020 年 3 月 31 日,全部课程已于 6 月 2 日正式结束。 课程主页: https:// web.stanford.edu/class/ cs520 课程概况 知识图谱逐渐成为互联网上组织世界结构化知识的有力抽象化方式,它能够捕捉企业间关键实体之间的关系,并整合来自多个数据源的信息。知识图谱还开始在机器学习和自然语言处理领域发挥重要作用,它不仅可以纳入世界知识作为所提取知识的目标知识表征,还能用来解释学习到的内容。 然而,有关知识图谱的专门课程相对较少。不过

ERNIE加持,飞桨图神经网络PGL全新升级

做~自己de王妃 提交于 2020-05-06 19:58:59
在2019年深度学习开发者秋季峰会上,百度对外发布飞桨图学习框架PGL v1.0正式版,历经5个月的版本迭代,PGL再度升级,发布v1.1版本,带来了最新的算法突破、全面的工业级图学习框架能力以及工业级的实践案例。下面我们逐一揭秘升级点。 最新算法突破:结合语义与结构信息的图神经网络模型ERNIESage 在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。 ​ PGL团队提出ERNIESage模型同时建模文本语义与图结构信息,有效提升Text Graph的应用效果。其中ERNIE是百度推出的基于知识增强的持续学习语义理解框架,在中英文16个任务上超越业内同类最优模型,以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的 GLUE评测榜单 ,并在最近SemEval 2020上斩获5项世界冠军。 ERNIESage是ERNIE与GraphSAGE碰撞的结果,是ERNIE SAmple aggreGatE的简称,它的结构如下图所示,主要思想是通过ERNIE作为聚合函数(Aggregators),建模自身节点和邻居节点的语义与结构关系。 ERNIESage对于文本的建模是构建在邻居聚合的阶段

zz【清华NLP】图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐

你。 提交于 2020-05-06 01:30:07
【清华NLP】图神经网络GNN论文分门别类,16大应用200+篇论文最新推荐 图神经网络研究成为当前深度学习领域的热点。最近,清华大学NLP课题组Jie Zhou, Ganqu Cui, Zhengyan Zhang and Yushi Bai同学对 GNN 相关的综述论文、模型与应用进行了综述,并发布在 GitHub 上。16大应用包含物理、知识图谱等最新论文整理推荐。 GitHub 链接: https://github.com/thunlp/GNNPapers 目录 综述论文 Graph Neural Networks: A Review of Methods and Applications. arxiv 2018. paper Jie Zhou, Ganqu Cui, Zhengyan Zhang, Cheng Yang, Zhiyuan Liu, Maosong Sun. A Comprehensive Survey on Graph Neural Networks. arxiv 2019. paper Zonghan Wu, Shirui Pan, Fengwen Chen, Guodong Long, Chengqi Zhang, Philip S. Yu. Deep Learning on Graphs: A Survey. arxiv 2018. paper