知识图谱

NLP免费直播 | 两周讲透图卷积神经网络、BERT、知识图谱、对话生成

流过昼夜 提交于 2020-08-11 13:55:43
大家好,我是贪心学院的小编。自从今年二月份举办的火爆的BERT、XLNet专题课以来,已经三个月没有跟大家见面了。这一次我们又给大家带来了重磅级的系列公开课, 由贪心学院和京东智联云联合打造,共四次公开课、为期两周时间, 感兴趣的朋友们可以 扫码加入。 ???? N L P公开课直播活动 ???? 这次的系列课程我们又选择了近几年NLP领域最火的话题, 包括GNN, GCN, Word2Vec, ELMo, GPT, BERT, 对话系统,个性化文本生成,知识图谱等内容。 作为一名NLP工程师,这些内容逐步在成为必修课。 在本次专题活动,我们会通俗易懂地讲解每一个核心知识点,让大家知道背后的原理,这也是贪心学院一贯的讲授风格。 本次的专题活动,我们有幸邀请到了 多位国内外NLP领域的专家, 均在各自领域中 发表过数篇顶会文章, 也有幸邀请到了京东相关领域的专家。我们希望通过本次活动,给大家带来一些认知上的提升,充实自我! 下 面 是 关 于 本 次 专 题 课 程 的 详 细 介 绍 以 及 安 排 , 你 可 以 通 过 扫 描 下 方 的 二 维 码 来 进 行 报 名 。 未 报 名 专 题直播活动 的 同 学 请 扫 描 下 方 二 维 码 ???? ???? ???? ???? 前 方 高 能 ???? 史 上 最 干 干 货 ! 来 咯 ! 本 次 直 播 分4 大 主

当银行架构师开始研究《孙子兵法》

*爱你&永不变心* 提交于 2020-08-11 12:45:31
近几年,传统银行与金融科技深度融合,“开放银行”应运而生, 银行如何通过科技赋能、构建开放生态来应对新一波的冲击和挑战,如何进一步探索未来开放银行的发展路径,成为当下值得探讨的话题。国内银行对什么是数字化银行,以及数字化银行内涵的认识日益清晰。然而知易行难,银行数字化转型是一个系统工程,转型过程中要统筹规划和实施。 近日,互联网银行架构师魏生博士受邀出席51CTO大咖来了栏目,以互联网开放银行的案例,诠释银行数字化建设的“兵法体系”。这套方法论为他首创,以《孙子兵法》中的道、法、术、器、例对应的哲学层、原则层、方法论层、工具层、案例层等,从不同维度、不同角度提炼了银行数字化建设的思考方式和做法,涉及顶层设计、业务战略、能力建设等领域,以及业务架构、技术架构和关键技术运用等方面。 银行数字化建设的范畴 不同人谈及银行数字化都有不同的理解,或者从不同的角度论述,往往缺乏体系化的视角。魏生博士用《银行数字化战略地图》来回答这个问题,如下图。 通常谈到的银行数字化,一般涉及四个层面的内容:数字化文化层面、数字化应用层面、数字化资产层面和数字化术层面。 银行数字化需要方法论支持 对银行数字化有不同的视角,自然做法也会不同。当前业界更多的是选择某个特定领域或应用特定技术进行数字化改造和微创新,往往缺乏顶层设计,或者认为,只要用了如大数据、人工智能等新技术,就可以解决业务问题

沃尔玛的产品知识图谱

那年仲夏 提交于 2020-08-11 04:02:07
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

使用 Amazon SageMaker 运行基于 TensorFlow 的中文命名实体识别

你说的曾经没有我的故事 提交于 2020-08-11 03:51:32
  一、背景   利用业内数据构建知识图谱是很多客户正在面临的问题,其中中文命名实体识别(Named Entity Recognition,简称NER)是构建知识图谱的一个重要环节。我们在与客户的交流中发现,现有的NER工具(比如Jiagu)对于特定领域的中文命名实体识别效果难以满足业务需求,而且这些工具很难使用自定义数据集训练。因此客户迫切想使用业内最先进的算法在行业内数据集上进行训练,以改进现有NER工具的不足。本文将介绍如何使用Amazon SageMaker运行基于TensorFlow的中文命名实体识别。   命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具。   英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。   二、中文命名实体识别算法   NER一直是自然语言处理(NLP)领域中的研究热点,从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法,NER研究进展的大概趋势大致如下图所示。      早期的命名实体识别方法基本都是基于规则的

【NLP】老司机带你入门自然语言处理

心已入冬 提交于 2020-08-10 11:53:38
自然语言处理是一门用于理解人类语言、情感和思想的技术,被称为是人工智能皇冠上的明珠。 随着深度学习发展,自然语言处理技术近年来发展迅速,在技术上表现为BERT、GPT等表现极佳的模型;在应用中表现为chatbot、知识图谱、舆情监控等基于NLP技术的产品在市场上的大规模出现。 基于此,各类公司开始出现NLP算法工程师的需求,待遇在软件工程师岗位中处于 相当 上游的 水平。 基于此,不少同学和工程师有学习NLP的愿望,本文对首先NLP做一个简单的介绍;然后,作为一个过来人,为初学NLP的同学提供一些必要的建议。 文末有我们的公众号的二维码,扫描关注,可以领取 系统的NLP资料。 作者&编辑 | 小Dream哥 1 NLP简介 每次与行外之人谈起自然语言处理(Natural Language Process,NLP),对方往往都是一片茫然。因此,常常感到很苦恼,如何跟一个从未接触过NLP的人,解释NLP到底是什么?毕竟这是一门这么重要的技术(学科),它的发展与应用,会极大的影响这个世界上的每一个行业,每一个人。 那么,到底什么是NLP呢?所谓自然语言处理,就是用计算机(或者其他计算单元,以下类似)来处理人类的自然语言。那么要理解NLP,首先要理解什么是自然语言。所谓“自然语言”,是相对于计算机语言(计算机能够理解的语言,如汇编、C语言等)而言的,人类日常使用的语言,例如我们都讲的中文

程序员敲代码时耳机里听的到底是什么?

人走茶凉 提交于 2020-08-09 22:33:42
我是风筝,公众号「古时的风筝」,一个兼具深度与广度的程序员鼓励师,一个本打算写诗却写起了代码的田园码农! 文章会收录在 JavaNewBee 中,更有 Java 后端知识图谱,从小白到大牛要走的路都在里面。 程序员上班戴耳机听歌难道不是正常的吗,真的还有公司不允许程序员戴耳机的吗?不戴耳机能写代码? 那程序员的耳机里听的是什么呢?我采访了一众程序员朋友。 钢铁程序员王二麻子同学 听的什么?我根本就不知道,我只是不想让别人打扰我 有时候开发确实是比较费脑子的,尤其是遇到复杂逻辑的时候。正当思如泉涌、灵感迸发的时候,旁人看着我坐在那里一动不动,好像什么都没有做,其实我脑子里正在构思一个复杂的流程。 这时候,突然有个人走过来打断我,前面的思考都白费了,你说伤心不,你说气人不。 所以,为了防止上面的情况出现,不得不戴上耳机。至于听什么,不重要,我只是告诉别人,别过来,我现在没时间。 生活需要仪式感的刘精神同学 听什么不重要,关键是仪式感 生活需要仪式感,写代码也需要仪式感啊。当我戴上耳机的那一刻,我感觉精神抖擞,仿佛游离的三魂六魄都回来了,写代码更有动力。 要是不戴耳机,感觉浑身无力,只想摸鱼,写代码什么的,根本想都想不起来。 心疼自己的高爱己同学 其实我就是不想听我的机械键盘声音,实在太吵了 你也知道,笔记本自带的键盘总感觉软绵绵的,敲起来实在不给力,严重影响我的工作效率

Kaggle上线arXiv完整数据集,以促进机器学习领域的发展

无人久伴 提交于 2020-08-09 11:44:18
  如果你是一个学术达人,经常搜索学术论文,那你一定知道 arXiv 这个网站。如果你爱好数据科学,专注于机器学习,Kaggle 就会是一个非常好的选择。   arXiv 是一个始于 1991 年、目前用于收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本网站。arXiv 的存在是造就科学出版业中所谓开放获取运动的因素之一。现今的一些数学家及科学家习惯先将其论文上传至 arXiv,再提交予专业的学术期刊。无论你是在自身研究领域迅速成长的研究生,还是致力于用科研为公众提供服务的研究者,arXiv 这一丰富的信息库都可以为你提供重要、甚至难以置信的帮助。   Kaggle 则是全球最大的数据竞赛平台,也是一个主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,创建于 2010 年,并于 2017 年被谷歌母公司 Alphabet 收购。在 Kaggle 这个平台上,不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)和想要解决的问题丢上去,请平台上的数据专家来帮忙解答。Kaggle 允许用户查找和发布数据集,在数据科学环境中开发和构建模型,用户也可以与其他数据科学家和机器学习工程师合作或一起参加竞赛。   如今,为使得 arXiv 上的资源更易访问和获取,arXiv 和 Kaggle 要 “强强联合” 了。近日

阿里提供中文搜索新选项!AI引擎+达摩院黑科技,你要试试吗?

别说谁变了你拦得住时间么 提交于 2020-08-09 11:20:24
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 最近中文搜索引擎市场又突然热了起来,一家巨头的入场让外界充满期待。 6月9日,阿里向外界确认成立智能搜索业务部,隶属阿里创新业务事业群,由UC事业部总经理、书旗事业部总经理吴嘉担任负责人。 阿里人事变动,莫非要进军搜索引擎市场?其实阿里的产品早已先行。 今年4月,一款名为“夸克”的智能搜索App首次在苹果应用商店排名超越百度,并首次跻身前20。 其实早在2018年,夸克就开始发力智能搜索,2019年1月,夸克发布3.0版,在自主订制的AI搜索引擎、搜索直达、指令控制等方面实现了重要升级。 搜索引擎诞生已有20余年,无论国内外,市场似乎早已尘埃落定,阿里为何如此“头铁”,夸克为何近两年来越来越进击智能搜索? 这恐怕与近年来AI成熟落地密不可分,也不得不从搜索行业的变化开始说起。 多模态搜索的变革 PC时代,我们以文字作为主要的搜索形式。移动互联网兴起后,手机端的搜索引擎App依然如此。 后来,智能手机开始普及,说一段话、拍一张图变得容易起来,各大搜索引擎公司又加入了语音、图片搜索。 如果我们仔细思考就会发现,现阶段大多数语音、图片搜索,其实本质上还是把多媒体信息转变成文字,然后再进行搜索。 这类搜索只是理解用户输入的信息,实际上对另一端抓取的信息是没有理解的

NumPy基础知识图谱

旧时模样 提交于 2020-08-09 09:22:25
所有内容整理自《利用Python进行数据分析》,使用MindMaster Pro 7.3制作,emmx格式,源文件已经上传Github,需要的同学转左上角自行下载或者右击保存图片。该图谱只是NumPy的基础知识,NumPy的高阶部分之后随着学习会整理出来。 来源: oschina 链接: https://my.oschina.net/u/4319574/blog/4339719

07-noderepr 图机器学习之图表征学习

狂风中的少年 提交于 2020-08-08 15:52:39
网络中的机器学习 节点分类 链接预测 机器学习的生命圈需要特征工程 网络的特征学习——特征向量 embedding network embedding的意义 节点的表征 节点的相似度衡量→网络相似度衡量 网络信息编码,生成节点表征 用途:异常检测,属性预测,聚类,关系预测 例子:deepwalk 难度:当前的深度学习视为序列或网格数据而设计的,但网络结构比这些更复杂,没有固定的空间结构,没有固定的顺序,是动态的,并且有多类特征 Embedding Nodes 假设我们有图G,V是节点集合,A是邻接矩阵, 将节点编码,编码后的向量计算得到的相似度与原网络的一致 因此需要定义一个编码器,以及计算节点相似度的函数,并优化encoder 浅层encoding,有一个大矩阵,存储各类节点的向量,encoder只是look-up,类似于word embedding 常见的方法:deepwalk,node2vec,transE 如何定义节点相似性 例子:若两个节点的embedding相似,那么在物理结构上,他们:相连?有相同邻居?相似的结构角色?等 随机游走→node embedding 随机游走:从一个节点出发,随机选择一个邻居节点,游走到该节点,再重复上述步骤。经过的节点组成的序列即为图的random walk 公式表示节点u,v在random walk中共同出现的概率 步骤: 1.