知识图谱

斯坦福Machine Learning with Graphs 学习笔记(第一讲)

百般思念 提交于 2020-08-08 15:42:06
作者: 林夕 本文长度为 2900字 ,建议阅读 9分钟 本文为大家介绍图网络的基本概念、网络的应用以及图的结构。 目录 一、Why Networks 二、网络的应用 2.1 应用领域 三、图的结构 3.1 网络表示的选择 3.2 点的度(Degree) 3.3 图的表示方式 邻接矩阵(Adjacency Matrix) 边列表(Edge list) 邻接列表(Adjacency list) 3.4 图的连通性 参考资料 最近我们小组开始整理CS224W机器学习图网络的一些笔记,这是第一课对应的PPT。 课程相关PPT链接: http://web.stanford.edu/class/cs224w/slides/01-intro.pdf 一、Why Networks 第一部分简单介绍下关于图网络的一些基本定义,应用和意义。 网络的定义: 网络是描述一系列交互实体的复杂系统的一种通用语言。 网络(Network)和图(Graph)的一些区别: 网络 通常指真实的系统,eg.互联网、社交网络、信息网络、代谢网络、常用的表达有网络、节点、关系等; 图是网络的数学表达方式 ,比如互联网图谱、社交图谱、知识图谱、场景图、分子图(分子预测模型)。常用表达有图、顶点、边等词; 网络的概念比图的概念总体来看会大一点 ,但是总的来说network和graph区别也是比较模糊的,在实际中

【NLP预训练模型】你finetune BERT的姿势可能不对哦?

血红的双手。 提交于 2020-08-08 12:20:19
预训练模型BERT是NLP领域如今最大的网红,BERT的预训练过程学习了大量的自然语言中词、句法以及常识等泛领域的知识。因此,在运用BERT到实际的NLP任务中,通常的做法都是基于特定领域内的少量数据(几千到几万)集,再进行Finetune,以适用于当前的任务和领域。 通常来说,基于BERT进行Finetune效果都会还不错。但是如果你的数据集相对小的时候,你有可能会遇到一些麻烦。本篇基于论文《Revisiting Few-sample BERT Fine-tuning》深入看一下BERT的预训练过程,试着深入分析这一过程,用于指导Finetune的工作。 作者&编辑 | 小Dream哥 1 BERT及其预训练 BERT是一个基于transformer encoder的大型双向模型,基于海量的文本进行预训练,训练的任务包括MLM和NSP。 笔者前面有详细介绍BERT的文章,忘记的同学可以先点击了解: 【NLP】 深入浅出解析BERT原理及其表征的内容 在论文《Revisiting Few-sample BERT Fine-tuning》中,论文作者细致的发现了BERT在预训练时,在更新参数时做了一些"小动作",如下图: BERT在预训练时,省略了标准Adam优化器优化过程中的第9和第10步。步骤9和步骤10分别是对步骤7和步骤8中一阶动量和二阶动量的有偏估计的纠正(bias

沃尔玛的产品知识图谱

若如初见. 提交于 2020-08-08 07:25:17
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

官宣!CSDN 重磅发布「AI开源贡献奖Top5」「AI新锐公司奖Top10」「AI优秀案例奖Top30」三大榜单...

房东的猫 提交于 2020-08-07 16:36:40
2020 年无疑是特殊的一年,AI 在开年的这场“战疫”中表现出惊人的力量。站在“新十年”的起点上,CSDN发起【百万人学AI】评选活动。我们继续聚焦AI的技术落地,关注开源和新生的力量。 作为CSDN第三届AI评选活动,本次活动受到数百家企业的关注和参与,经过严格的初选和专家评审环节,我们最终评出「AI开源贡献奖Top 5」、「AI新锐公司奖Top 10」、「AI优秀案例奖Top 30」三大榜单。 在 AI 开发者大会(AI ProCon 2020)上,CSDN 正式揭晓以上三大榜单。我们相信,榜样的力量将成为促进AI行业不断发展的重要基石,CSDN将与这些榜样一起,携手共创AI应用新纪元! AI开源贡献奖Top 5 百度 :飞桨深度学习平台 飞桨是百度自主研发的产业级深度学习平台。它于2016年正式开源,具有开发便捷的核心框架、支持超大规模深度学习模型训练、多端多平台部署的高性能推理引擎和产业级开源模型库等领先技术。 华为:MindSpore深度学习框架 MindSpore是华为开源的一款面向端边云全场景的全新深度学习训练/推理框架,旨在降低开发者学习成本,提高数据科学家的研发效率,以及通过提供一套统一框架加速面向全场景的AI新应用落地。 旷视科技:天元MegEngine深度学习框架 MegEngine是旷视完全自主研发的深度学习框架,中文名为“天元”

程序员敲代码时耳机里听的到底是什么?

梦想与她 提交于 2020-08-07 15:12:02
我是风筝,公众号「古时的风筝」,一个兼具深度与广度的程序员鼓励师,一个本打算写诗却写起了代码的田园码农! 文章会收录在 JavaNewBee 中,更有 Java 后端知识图谱,从小白到大牛要走的路都在里面。 程序员上班戴耳机听歌难道不是正常的吗,真的还有公司不允许程序员戴耳机的吗?不戴耳机能写代码? 那程序员的耳机里听的是什么呢?我采访了一众程序员朋友。 钢铁程序员王二麻子同学 听的什么?我根本就不知道,我只是不想让别人打扰我 有时候开发确实是比较费脑子的,尤其是遇到复杂逻辑的时候。正当思如泉涌、灵感迸发的时候,旁人看着我坐在那里一动不动,好像什么都没有做,其实我脑子里正在构思一个复杂的流程。 这时候,突然有个人走过来打断我,前面的思考都白费了,你说伤心不,你说气人不。 所以,为了防止上面的情况出现,不得不戴上耳机。至于听什么,不重要,我只是告诉别人,别过来,我现在没时间。 生活需要仪式感的刘精神同学 听什么不重要,关键是仪式感 生活需要仪式感,写代码也需要仪式感啊。当我戴上耳机的那一刻,我感觉精神抖擞,仿佛游离的三魂六魄都回来了,写代码更有动力。 要是不戴耳机,感觉浑身无力,只想摸鱼,写代码什么的,根本想都想不起来。 心疼自己的高爱己同学 其实我就是不想听我的机械键盘声音,实在太吵了 你也知道,笔记本自带的键盘总感觉软绵绵的,敲起来实在不给力,严重影响我的工作效率

人工智能中小样本问题相关的系列模型演变及学习笔记(四):知识蒸馏、增量学习

半城伤御伤魂 提交于 2020-08-07 13:21:53
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 【再啰嗦一下】本文衔接上两个随笔: 人工智能中小样本问题相关的系列模型演变及学习笔记(一):元学习、小样本学习 【再啰嗦一下】本文衔接上两个随笔: 人工智能中小样本问题相关的系列模型演变及学习笔记(二):生成对抗网络 GAN 【再啰嗦一下】本文衔接上两个随笔: 人工智能中小样本问题相关的系列模型演变及学习笔记(三):迁移学习 一、知识蒸馏综述 知识蒸馏被广泛的用于模型压缩和迁移学习当中。 本文主要参考:模型压缩中知识蒸馏技术原理及其发展现状和展望 1. 基本概念 知识蒸馏可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。做法是先训练一个teacher网络,然后使用这个teacher网络的输出和数据的真实标签去训练student网络。 可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能。 可以将多个网络的学到的知识转移到一个网络中,使得单个网络的性能接近emsemble的结果。 2. 知识蒸馏的主要算法 知识蒸馏是对模型的能力进行迁移,根据迁移的方法不同可以简单分为基于目标驱动的算法、基于特征匹配的算法两个大的方向。 2.1 知识蒸馏基本框架 Hinton最早在文章“Distilling the knowledge in a

面试了 6 轮 Google 中国 之后,还是挂了

非 Y 不嫁゛ 提交于 2020-08-07 07:32:54
去年换工作的时候, 面试了一下 Google (这里说的是 Google 中国哈), 来了个 Google 面试六轮游, 结果是没通过. 🤣 现在分享下我参加 Google 面试的具体流程以及我觉得应该注意的事项, 希望对大家有帮助. 相关背景 先介绍下自己相关背景, 985 本科, Top2 硕士(其实, 大公司都比较看重第一学历的). 在校期间, 科研也没啥能拿得出手的论文. 社招时, 4 年多工作经验, 面试时为大疆后端开发TL(带3~4个人而已). Google 整体面试流程上基本如下: Recruiter Prescreen → Phone Interview (1~2 sessions) → Onsite Interview (4~5 sessions, 1 week to receive feedback) → Hiring Committee Review → Offer Review → Offer Delivery (Yippee!) 我一共经历了 1 轮电话面试, 5 轮 onsite, 如果算上前面的HR 的预筛选的话, 就是 7 轮. 简历投递 之前校招其实也参加过, 无奈门槛太高, 竞争压力太大, 连面试流程都木有进. 当初校招时直接网上刷题, 这个网站上其实还能看到往年的一些题目情况: Google Code Jam . 基本上分几轮, 每轮 top

什么是知识图谱

江枫思渺然 提交于 2020-08-06 23:39:00
转自: https://zhuanlan.zhihu.com/p/71128505 我们可能已经了解了很多机器学习和深度学习的算法,但是那似乎离我们心中的 “人工智能” 还很遥远。我们训练的模型,更像是一个具有统计知识的机器,从关联和概率的角度出发,试图在描述世界背后的 “真理”。然而,我们更希望的是,像人一样,具有分析和推理能力的机器智能。如果你问我,哪一种形式最接近我心中的 “人工智能”,我会说:知识图谱。 今天,就让我们来解决一个问题:什么是知识图谱? 知识图谱 “考古史” 2012 年 5 月 17 日,Google 正式提出了 知识图谱(Knowledge Graph) 的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。 假设我们想知道 “王健林的儿子” 是谁,百度或谷歌一下,搜索引擎会准确返回王思聪的信息,说明搜索引擎理解了用户的意图,知道我们要找 “王思聪”,而不是仅仅返回关键词为 “王健林的儿子” 的网页: 编者按:知乎文章《为什么需要知识图谱?什么是知识图谱?——KG的前世今生》是一个很好的入门文章,感兴趣可以进一步阅读: https://zhuanlan.zhihu.com/p/31726910 。《知识图谱的技术与应用(18版)》是一个更为全面和详细的介绍, https://zhuanlan.zhihu.com/p/38056557 。

基于自然语言处理技术的智能电子病历系统

久未见 提交于 2020-08-06 08:59:21
一、设计理念&产品介绍 智能电子病历系统采用独有的NLP技术对病历进行细致的、专业的结构化处理,使得病历内容的内在含义为计算机“理解”,实现监控和利用。其核心价值不单纯在于病历的无纸化存储和电子化记录,更是在医疗质量控制、区域医疗信息化、临床路径、疾病监测、科研教学等方面都发挥出重要作用。 患者就医过程中产生了大量的医疗数据,医生给其接诊时又需要获取该患者既往和当下产生的数据以辅助医生采取下一步治疗,根据治疗所产生的数据再采取对应的治疗措施,周而复始直至患者疾病治愈。这个治疗模式是现有临床诊疗的模式。我们做的是临床诊疗系统,操作者是临床医生,因此我们采取该模式设计了智能电子病历一体化系统,我们的设计理念是,从临床数据中心、专病数据中心、临床诊疗指南、疾病知识库抽取疾病诊疗数据构建医疗知识图谱,以医疗知识图谱为基础创建临床决策引擎,把临床决策引擎接入全结构化的电子病历系统,通过赋能电子病历系统,让医生感知智能医疗:辅助诊断、智能推荐、智能输入、智能纠错、智能质控、智能编码等,让医生从上一代的业务操作系统进入到新一代的智能化时代。 赋能临床诊疗的全过程后提高了临床效率,在对整个医疗过程进行过程质控、内容质控、效果质控实现智能医疗质控,以提高医疗质量,降低医疗事故,保障医疗安全。 二、产品特点优势 如果为了电子病历的结构化,把应该用自然语言自由化输入的电子病历