自然语言处理

ERNIE加持,飞桨图神经网络PGL全新升级

做~自己de王妃 提交于 2020-05-06 19:58:59
在2019年深度学习开发者秋季峰会上,百度对外发布飞桨图学习框架PGL v1.0正式版,历经5个月的版本迭代,PGL再度升级,发布v1.1版本,带来了最新的算法突破、全面的工业级图学习框架能力以及工业级的实践案例。下面我们逐一揭秘升级点。 最新算法突破:结合语义与结构信息的图神经网络模型ERNIESage 在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。 ​ PGL团队提出ERNIESage模型同时建模文本语义与图结构信息,有效提升Text Graph的应用效果。其中ERNIE是百度推出的基于知识增强的持续学习语义理解框架,在中英文16个任务上超越业内同类最优模型,以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的 GLUE评测榜单 ,并在最近SemEval 2020上斩获5项世界冠军。 ERNIESage是ERNIE与GraphSAGE碰撞的结果,是ERNIE SAmple aggreGatE的简称,它的结构如下图所示,主要思想是通过ERNIE作为聚合函数(Aggregators),建模自身节点和邻居节点的语义与结构关系。 ERNIESage对于文本的建模是构建在邻居聚合的阶段

加权残差连接ReZero

你。 提交于 2020-05-06 18:07:25
https://blog.csdn.net/sjyttkl/article/details/105052669 文标题: Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley 论文作者: Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley 论文链接: https://arxiv.org/abs/2003.04887 代码链接: https://github.com/majumderb/rezero 深度学习在众多领域都取得了显著进展,但与此同时也存在一个问题:深层网络的训练常常面临梯度消失或梯度爆炸的阻碍,尤其是像 Transformer 这样的大型网络。现在,加州大学圣迭戈分校的研究者提出了一种名为 ReZero 的神经网络结构改进方法,并使用 ReZero 训练了具有一万层的全连接网络,以及首次训练了超过 100 层的 Tansformer,效果都十分惊艳。 深度学习在计算机视觉、自然语言处理等领域取得了很多重大突破。神经网络的表达能力通常随着其网络深度呈指数增长

四非院校的我是如何从化工锂电行业转行成为一名数据挖掘工程师的

隐身守侯 提交于 2020-05-05 20:37:07
在大家这四年不断的催更声中,我更新了. 没错,我转行了. 我2016年在江苏龙城边的普通二本毕业,专业是化学工程与工艺,2019年深圳大学化学工程毕业,在知乎上这样的学历混深圳有多惨不用我赘述了吧T0T,不是司徒不更新,而是不知道怎么说才好啊!(´_`) 研一的时候还沉浸在读研的喜悦中,班上的同学有一半本科是211以上的学校,心里窃喜自己的选择。而且我选择了当时比较火的新能源电池专业,细分领域没有选择较难投产的钠电,锂硫,燃料电池,奇怪的负极等,而是做了锂电。这个方向已经投产了,而且新能源车很火,感觉自己还是比较稳的。开开心心做实验,嘻嘻哈哈交朋友,日子过的美滋滋,我也发表了人生的第一篇SCI。 还自学了计算化学,贼难。 研一就有幸认识了一些刚毕业的师兄,他们去了B公司,A公司,在欢送酒上头的时候他们踌躇满志,他们意气风发,也让我也深受鼓舞,感觉自己总算是选对了。研二的时候第一批师兄毕业了,就业形势大好。当时沃特玛电池,比克电池开的薪酬10k,是人就要,去就是研发岗,而沃特玛是超越B公司的存在,当时市场环境对锂电池的补贴很大,而且新能源也上升为国家战略,作为生化环材的一份子,我庆幸自己选择了正确的方向,已经开始规划美好未来了。( ̄▽ ̄)ノ 时间转眼就来到了研三,经过两年的日夜奋斗完成了毕业论文,而且有自己的研究成果和专利,也到我要找工作的时候了

2020五四青年节 | 青年人在美团是怎样成长的?

安稳与你 提交于 2020-05-04 23:42:45
2020年五四青年节,我们采访了美团技术团队9位青年代表,他们是来自清华大学、北京大学、中国科学院大学等国内高校的2位博士研究生和7位硕士研究生。在这个属于青年人的特别的日子里,我们请他们分享了自己在美团成长的故事。 道阻且长,不忘初心,砥砺前行,行则将至 Q1:毕业时,你应该拿到了不少Offer,为什么最后选择了美团? 杨扬 :最重要的一点,美团的技术氛围很好。在学校的时候,我也关注了美团技术团队的公众号/博客,满满的干货。我其实从大三就开始接触自然语言处理(NLP)这个领域了,那时候就对NLP产生了兴趣和热爱,研究生期间也一直做NLP这个方向,所以投递的岗位以及拿到的Offer也都是与此相关的。此外,也是考虑到美团有海量的数据和丰富的场景,能够将NLP的技术更好地应用,并且公司也处于快速发展的时期,我深信能在美团这里得到更多的成长空间。 当然,还有一个比较特别的原因吧,应该说是缘分。当时有师兄在美团工作,他有一次听了王仲远(AI平台/搜索与NLP部技术负责人)的一次分享后,就直接联系我,然后将我内推了过来,然后才有后续的故事。总的来说,加入美团技术团队,能跟一群优秀的人做事,会让自己变得更加优秀。 Q2:在美团众多的企业理念中,哪一条对你影响比较大? 杨扬 :「每天前进三十公里」,这句话对我影响比较大。每天多学习一点,多思考一点,积跬步以至千里。 Q3:工作中

云计算、大数据、5G、人工智能和工业互联网介绍和联系

我的梦境 提交于 2020-05-04 19:18:58
2020年,新基建的再次提出为中国的产业结构升级和转型提供了新动力,它涉及到了信息网、能源网和交通网三大板块,涵盖了5G基建、人工智能、大数据中心、工业互联网、特高压、城际高速铁路和轨道交通特高压和新能源汽车充电桩等七大领域!作为新基建的几个发力点同时又作为优化中国产业结构的重点:5G基建、AI、大数据中心和工业互联网尤为重中之重! 因为看了很多文章,它们的文章结构都比较乱,属于那种感性文章,情到之处!有点类似于道哥的黑板报那种,所以想着梳理一下,让自己能够有一个更加清晰的认识和理解!故我作此文章写给自己! 首先我将介绍上述几个概念的定义,然后论述它们之间的联系,最后说明该领域新基建的建设的意义! 一、新基建五大领域的概念介绍 云计算: 云计算是一种分布式计算,通过网络解决任务分发,并进行计算结果的合并。 指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。通过这项技术,可以在很短 的时间内(几秒种)完成对数以万计的数据的处理,从而达到强大的网络服务。 狭义上讲,云计算就是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的,只要按使用量付费就可以,“云”就像自来水厂一样,我们可以随时接水,并且不限量,按照自己家的用水量,付费给自来水厂就可以。 广义上说

人机智能既不是人类智能,也不是人工智能

依然范特西╮ 提交于 2020-05-04 14:08:53
来源:人机与认知实验室 从前,一个教授,去一个穷乡僻壤里头坐船过江,就问船上的船工:你学点数学没有?没有。你学点物理没有?没有。那懂不懂计算机啊?不懂。 教授感叹这三样都不会,你的人生已经失去了一半。隔了一会乌云密布,狂风四起,船工问:你会游泳吗?教授说不会。“那你可能要失去整个生命了!” 人机融合就是把教授和船工结合起来的智能 根据过去数据计算现在和未来是数学常用的手段,根据未来期望算计现在和过去才是人智的方法。 我们知道的远比我们说出来的要多得多,我们不知道的远比我们知道的要多得多,我们不知道我们不知道的远比我们不知道的要多得多…… 人类的感觉刺激、信息是动态分类,聚类,不是一次完成的,而是多次弥聚变化的(这种轮回机制目前尚未搞清楚)。 大道无形的道是碎片的、流性的……所以正是零碎的规则、概率、知识、数据、行为构成了人的智能,即在千奇百怪的日常异构活动情境中生成演化出来的。人智,从一开始就不是形式化、逻辑化的,而且人的逻辑是为非逻辑服务定制的,机器则相反,从一开始就是条理化了、程序化的,也是为人的非逻辑服务的。 本质上,数据的标记与信息的表征不同之处在于有无意义的出现,意义即是否理解了可能性。机涉及的表征体系虽然是人制定赋予的,但一诞生就已失去了本应的活性,即意向性参与下的各种属性、关系灵活连接和缝合,而人的诸多表征方式则常常让上帝都不知所措:一花一世界,一树一菩提

NLP中文短文本处理记录(一)

大憨熊 提交于 2020-05-04 07:23:38
数据清洗 更新 NLP短文本处理 (第一天参考文章)[https://blog.csdn.net/eastmount/article/details/50473675] 总结以上两个Tip如何删除停用词 NLP之文本清洗 NLP一些常用词 待读文章 第二天学习 封装中文分词 数据清洗 写代码前要想好数据该用什么格式输出,最好在纸上画出来,然后想如何能实现 更新 read_csv()读取含中文的csv文件时, encoding='utf-8'或'gb18030' , 会遇到有的行无法读出,增加参数 error_bad_lines=False 处理不规范的json文件 import json mess=[] with open( '谣言.json' , 'r' ,encoding= 'utf-8' ) as f: lines=f.readlines() i= 0 for line in lines: print(line) data=json.loads(line) mess.append(data) #i+=1 #if i>200: #break print(mess) 莫凡Python NLP短文本处理 强烈推荐 KDnuggets系列数据分析、NLP、机器学习文章 系列NLTK文章,没看 (第一天参考文章)[ https://blog.csdn.net/eastmount

nlp 总结 分词,词义消歧,词性标注,命名体识别,依存句法分析,语义角色标注

。_饼干妹妹 提交于 2020-05-04 02:56:51
分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。 例如,句子 国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 正确分词的结果是 国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。 如果分词系统给出的切分结果是 国务院/ 总理/ 李克/ 强调/ 研/ 上海 … 因为 强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要搜索和李克强相关的信息时,搜索引擎就很难检索到该文档了。 切分歧义 是分词任务中的主要难题。 LTP的分词模块 基于机器学习框架,可以很好地解决歧义问题。 同时,模型中融入了词典策略,使得LTP的分词模块可以很便捷地加入新词信息。 词性标注 词性标注(Part-of-speech Tagging, POS)是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。 其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。 国务院/ni 总理/n 李克强/nh 调研/v 上海/ns 外高桥/ns 时/n 提出/v ,/wp 支持/v 上海

传统经营思维提供更多的

穿精又带淫゛_ 提交于 2020-05-03 19:47:28
sdfsdf 服务网格作为一个改善服务到服务通信的专用基础设施层,是云原生范畴中最热门的话题。随着容器愈加流行,服务拓扑也频繁变动,这就需要更好的网络性能。服务网格能够通过服务发现、路由、负载均衡、心跳检测和支持可观测性,帮助我们管理网络流量。服务网格试图为无规则的复杂的容器问题提供规范化的解决方案 将供应链搬出中国,似乎成了过去两三个月新冠肺炎疫情衍生出的热门话题。 年初新冠肺炎疫情爆发,让中国供应链的生产活动几乎完全停顿,影响席卷全球:苹果的新 5G 有可能因疫情而延期推出,特斯拉新款芯片无法及时交付、陷入“芯片门”纠纷。其余像三星、小米、索尼等著名跨国企业,均受到供应链停摆的影响。 因此,odrrqnz.answers.yahoo.com/question/index?qid=20200428010338AAFBE23?DN3=55nfj=19z answers.yahoo.com/question/index?qid=20200428010352AAnq25W?ZZ7=31vld=51v in.answers.yahoo.com/question/index?qid=20200428010352AAnq25W?HL9=53fjv=37f malaysia.answers.yahoo.com/question/index?qid=20200428010352AAnq25W

没有我为您掌灯您在回家

和自甴很熟 提交于 2020-05-03 16:28:02
sdfsdf 服务网格作为一个改善服务到服务通信的专用基础设施层,是云原生范畴中最热门的话题。随着容器愈加流行,服务拓扑也频繁变动,这就需要更好的网络性能。服务网格能够通过服务发现、路由、负载均衡、心跳检测和支持可观测性,帮助我们管理网络流量。服务网格试图为无规则的复杂的容器问题提供规范化的解决方案 将供应链搬出中国,似乎成了过去两三个月新冠肺炎疫情衍生出的热门话题。 年初新冠肺炎疫情爆发,让中国供应链的生产活动几乎完全停顿,影响席卷全球:苹果的新 5G 有可能因疫情而延期推出,特斯拉新款芯片无法及时交付、陷入“芯片门”纠纷。其余像三星、小米、索尼等著名跨国企业,均受到供应链停摆的影响。 因此,mzpgpmixcloud.com/O45h7eh1EtU7q1J/?RR1=53plp=37f mixcloud.com/WQjV82IP0u3rYus/?TH9=17vbp=77r mixcloud.com/o9GYu96wazP6yuA/?XZ5=11pnr=91j mixcloud.com/w7qsGysRGzHP3YU/?JL7=33fjz=79p mixcloud.com/JPno8UMY8s0So2R/?ZB1=73vzn=93h mixcloud.com/PVv8gEPqRo48B0J/?FT3=51lpt=91v mixcloud.com/68ijMZYtj0gc6EN/