自然语言处理

是不是有一天想象着让代码自动补全,今天他来了!!!

僤鯓⒐⒋嵵緔 提交于 2020-10-22 18:12:55
作者:熊唯,黄飞 ,腾讯 PCG/QQ研发中心/CV应用研究组 AI 如果真的可以写代码了,程序员将何去何从?近几年,NLP 领域的生成式任务有明显的提升,那通过 AI 我们可以让代码自动完成后续补全吗?本文主要介绍了如何使用 GPT2 框架实现代码自动补全的功能。 如果 AI 真的可以自己写代码了,程序员将何去何从? 我去年做过一个代码补全的小功能,打包为 androidStudio 插件,使用效果如下: 代码补全模型预测出的结果有时的确会惊吓到我,这也能学到~? 那如果给它见识了全世界的优秀代码,再给足够量级参数和优秀的模型框架,真的可以实现需求作为输入,直接输出代码吗? "我的需求讲完了,你的代码呢?" 希望可以看到这一天。 代码补齐功能有其他优秀插件也已实现,比如 tabnine,Kite 和国产的 aixcoder。本文主要介绍下代码补全功能需要实现的整套流程。主要包括数据,算法和工程。 数据 众所周知,算法工程师大部分时间都在处理数据。 深度学习是使用大数据训练模型的一个过程,数据是很重要的一个模块。人是会累的,休息不好还导致记忆不好。AI 是你给多少数据它就能存储接收多少数据,学不到信息那是人的错,给的数据不好或者算法设计不好。所以我们先尽可能多的准备好训练数据。 1、数据采集 本文的目的是代码补全,训练数据就是代码段。考虑到每种语言风格和语法都不一致

###haohaohao####揭秘认知图谱!从多跳阅读理解问答开始

|▌冷眼眸甩不掉的悲伤 提交于 2020-10-22 01:42:59
【ACL 2019】揭秘认知图谱!从多跳阅读理解问答开始 Phoenix Cat 劝退人工智能新天坑 “机器的阅读理解与问答”一直以来被认为是“自然语言理解(NLU)”的核心问题之一,随着BERT等模型的兴起,单段落的简单阅读理解任务取得了重大突破;研究者将目光转向更能体现机器智能的“多跳”“复杂”情形。本篇论文介绍了基于认知中“双过程理论(dual process theory)”的CogQA模型,文章提出一种新颖的迭代框架:算法模拟认知学中人类的两个认知系统,并维护一张认知图谱(Cognitive Graph),系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量,系统二利用图神经网络在认知图谱上进行推理计算。文章在HotpotQA全维基百科数据集上持续占据第一近三个月之久,直到文章在被ACL高分接收后公开。 假设你手边有一个维基百科的搜索引擎,可以用来获取实体对应的文本段落,那么如何来回答下面这个复杂的问题呢? “谁是某部在2003年取景于洛杉矶Quality cafe的电影的导演?” 很自然地,我们将会从例如Quality cafe这样的“相关实体”入手,通过维基百科查询相关介绍,并在其中讲到好莱坞电影的时候迅速定位到“Old School”“Gone in 60 Seconds”这两部电影,通过继续查询两部电影相关的介绍,我们找到他们的导演

万字总结83篇文献:深度强化学习之炒作、反思、回归本源

强颜欢笑 提交于 2020-10-21 20:50:26
来源:深度强化学习实验室 本文 约15000字 ,建议 阅读10+分钟 本文为你深入浅出、全面系统总结强化学习的发展及未来展望。 深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文, 本文将阐述深度强化学习的发展现状,并对未来进行展望。 一、深度强化学习的泡沫 2015 年,DeepMind 的 Volodymyr Mnih 等研究员在《自然》杂志上发表论文 Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型 Deep Q-Network(DQN),在 Atari 游戏平台上展示出超越人类水平的表现。自此以后,结合 DL 与 RL 的深度强化学习(Deep Reinforcement Learning, DRL)迅速成为人工智能界的焦点。 过去三年间,DRL 算法在不同领域大显神通:在视频游戏 [1]、棋类游戏上打败人类顶尖高手 [2,3]

线下公开课报名开启!零门槛玩转AI模型训练

巧了我就是萌 提交于 2020-10-21 17:28:41
在数字化浪潮下,人工智能成为企业实现降本增效的有效途径。 例如,工业生产制造企业中产品的质检工作通常依赖人力完成,作为商品出厂前的最后一道工序,要求质检人员具备高度的专业性与专注度。借助人工智能的力量,将计算机视觉与机械臂相结合,打造瑕疵智能识别+残品自动分拣的解决方案,有效减轻了一线质检人员的压力。 然而,传统意义上的人工智能转型,不仅需要海量数据的积累,对企业算法人员的技术水平、业务理解能力等多个方面也往往有较高的要求。因此,AI 应用的高门槛与高成本,让大批中小型企业与初创企业的 AI 转型之路难上加难。 百度基于飞桨深度学习平台推出的 EasyDL 能够轻松解决上述问题,作为支持企业进行零门槛 AI 开发与高效部署的平台,EasyDL 支持 CV、NLP、ML 三大方向的多种模型,无论是工业质检、园区管理、物流分拣,还是智能硬件、企业服务,都能通过 EasyDL 平台,使用交互式操作,便捷地进行业务模型的定制;考虑到企业部署环境的多样性,EasyDL 同样支持公有云/私有化/设备端多种部署方式,并进行了优化与适配加速,为企业降低部署的难度与成本。 那么,企业说,我还想短时间掌握平台的使用,在业务中快速集成 AI 能力,有没有办法跳过平台使用的摸索阶段?甚至希望资深研发能面对面指导,手把手带领我完成开发的全部流程? 机会来了!百度 AI 快车道·EasyDL 企业零门槛 AI

这么多年,终于有人讲清楚Transformer了

故事扮演 提交于 2020-10-21 14:31:06
作者 | Jay Alammar 译者 | 香槟超新星,责编 | 夕颜 来源 | CSDN(ID:CSDNnews) 注意力机制是一种在现代深度学习模型中无处不在的方法,它有助于提高神经机器翻译应用程序性能的概念。在本文中,我们将介绍Transformer这种模型,它可以通过注意力机制来提高训练模型的速度。在特定任务中,Transformer的表现优于Google神经机器翻译模型。但是,最大的好处来自于Transformer如何适用于并行化。实际上,Google Cloud建议使用Transformer作为参考模型来使用其Cloud TPU产品。因此,我们试试将模型分解开吧,看看它是如何工作的。 Attention is All You Need一文中提出了Transformer。它的TensorFlow实现是Tensor2Tensor包的一部分。哈佛大学的NLP团队创建了一份指南,用PyTorch实现对这篇文章进行注释。在本文中,我们将试着尽可能地简化讲解,并逐一介绍概念,希望能让那些对这方面没有深入知识的人们更容易理解Transformer。 Transformer概览 首先,让我们先将模型视为一个黑盒。在机器翻译应用程序中,这个模型将拿一种语言中的一个句子,然后以另一种语言输出其翻译。 打开擎天柱的引擎盖(Optimus Prime,Transformer与变形金刚是同一个词

自然语言处理动手学Bert文本分类

坚强是说给别人听的谎言 提交于 2020-10-20 16:51:01
自然语言处理动手学Bert文本分类 Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着老师一行一行代码撸起来。 章节1:课程简介 章节2:Seq2Seq相关理论 章节3:Attention机制 章节4:Bert理论系列基础 章节5:基于Bert的文本分类实战 章节6:基于Bert+CNN的文本分类实战 章节7:基于Bert+RNN的文本分类实战 章节8:基于Bert+RCNN的文本分类实战 章节9:基于Bert+DPCNN的文本分类实战 章节10:基于ERNIE的文本分类实战 来源: oschina 链接: https://my.oschina.net/u/4323266/blog/4681101

确认!字节跳动 AI Lab 负责人马维英离职,将赴清华加入张亚勤团队

試著忘記壹切 提交于 2020-10-17 23:39:16
整理 | 夕颜 出品 | CSDN(ID:CSDNnews) 近日有媒体爆料称,字节跳动副总裁、人工智能实验室马维英离职,并将赴清华大学智能产业研究院,加入正在筹备该产业院的原百度总裁张亚勤团队。CSDN 向字节跳动方面求证,证实马维英确实离职,并出于自身兴趣,选择到清华大学从事人才培养和科研相关工作,但他本人将继续担任字节跳动技术顾问。 2019年12月31日,张亚勤已加盟清华大学,受聘清华大学“智能科学”讲席教授,在清华大学车辆与运载学院、计算机系和相关院系开展科研、教学和人才培养工作。张亚勤同时负责牵头筹建“清华大学智能产业研究院(AIR)”,面向第四次工业革命,以自动驾驶、人工智能+物联网和类脑智能为关键的技术突破方向,打造世界顶尖的创新研发平台。 消息透露,马维英将作为联合创始人与张亚勤一起筹备清华大学智能产业研究院(AIR),另一共同创始人为前海尔集团CTO赵峰。预计,清华大学智能产业研究院(AIR)预计年底可正式成立。 资料显示,字节跳动人工智能实验室(AI Lab)成立于2016年,马维英于2017年离开微软亚洲研究院加盟实验室。AI Lab的使命是推动机器智能的极限,致力于将AI理论研究快速追踪用于产品部署,研究领域包括自然语言处理、计算机视觉、机器学习、数据挖掘、计算及图形&增强现实、系统&网络。 自成立以来,该实验就成为字节跳动产品AI应用的技术支持“大后方”

融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020

一个人想着一个人 提交于 2020-10-17 16:58:57
     原创作者:王少磊   文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。   目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。   本文介绍一篇被EMNLP 2020录取的工作,在本工作中,作者首次尝试用无监督的方法来解决文本顺滑问题。   作者通过结合自训练(self-training)和自监督(self-supervised)两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。   论文名称:   《Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection》      论文作者:王少磊,王重元,车万翔,刘挺   论文链接:http://ir.hit.edu.cn/~slwang/emnlp2020.pdf   以下是论文一作王少磊对本文的亲自解读。   1   任务简介及动机   自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。  

代码逆流成河,深入C++如何又快又有效?

点点圈 提交于 2020-10-16 18:33:45
虽然编程语言有很多,但在需要 顶级性能 的项目上,基本都会使用C++。 尤其是机器人、自动驾驶、AI等 嵌入 和 实时 系统,都是C++的主要应用方向,在这种层面,几乎没有竞争者。 比如熊厂的搜索引擎、推荐引擎等核心产品,鹅厂几乎所有产品都是C++开发。 C++的性能固然强大,但它的范式和机制也给开发者造成很大的负担: 一是 项目开发效率低 ; 二是 学习困难,不好上手 ; 这也导致企业要想 招一个合格的C++程序员十分困难! 其实, C++的 难点 主要集中在“ 位操作 ”和“ 指针 ”,很多人纵使学的非常用心也依旧不能深入理解,搞得非常痛苦。 所以今天给大家推荐一个 《C++项目开发4天实战特训营》 。 对于“指针”等难点讲的非常透彻,而且会 深入C++核心编程 并带着完成1个 G oogle测试框架 ,我这个老司机看过后也有了全新的理解。 授课老师胡船长也是我一直非常敬重的大神,他早在10年前就获得了 ACM亚洲区金牌 ,并 2次晋级 全球总决赛。 此后任职 百度知识图谱部 ,推动 开发 百度NLP推理引擎 ,并获得百度“ 黑马奖 ” “ 年度英雄奖 ” 等荣誉,代码能力非常强悍! 特训营 原价 399 元 ,靠着关系搞到 100 个优惠 名额,仅需 1 元 即可入学!只要你是统招本科及以上学历,就可以抢占! 长按3秒 即可扫码 你现在长按识别上方二维码或点击阅读原文

贝尔实验室和周公“掰手腕”:AI算法解梦成为现实

本小妞迷上赌 提交于 2020-10-16 12:59:45
     作者 | 青 暮、蒋宝尚   编辑 | 青 暮    几百年前的爱尔兰。有一对夫妻,他们彼此相爱。丈夫的头发是浅棕红色的、卷曲的,妻子也是卷发。他们是牧羊人,靠用绵羊毛织布来谋生。妻子甚至把还在羊背上的羊毛直接织成了布。这个冬季对于绵羊而言非常温暖,因为新的羊毛从紧贴皮肤的编织羊毛下生长出来了。然后,出现了几个富人,抢走了他们的土地,还砍断了男人的腿。   上述文字描述了一位三十岁女艺术家的梦境,对于这个梦境报告,下图给出了评估结果。结果显示,这个梦境的属性是想象的、负面情绪的、男性特征的,以及有攻击性的,并被归类为噩梦(红色)。      你可能会以为这是一个解梦师给出的判断,但实际上,为女艺术家解梦的,是一个AI算法。   最近,在一篇发表于《皇家社会科学学会》期刊上的研究中,来自诺基亚贝尔实验室(Nokia Bell Labs)和罗马大学的三位研究员合力 使用AI算法分析了数千个梦,表示AI可以识别并量化梦的特征,特征之间的相互关系,以及梦境反映的情绪,从而帮助心理学家快速识别患者中潜在的压力源和心理健康问题。      这篇文章在Science网站上也有推荐   例如,一位十几岁的女孩Izzy描述她的梦境:“我当时在家里,那愚蠢的《Looney Tunes》节目中可怕的红色怪物正四处走动。”   用AI给出的判断是负面情绪的、有攻击性的,并归类为噩梦,如下图所示