自然语言处理

自然语言处理十大应用

谁说我不能喝 提交于 2020-07-27 00:07:38
作者|ABHISHEK SHARMA 编译|VK 来源|Analytics Vidhya 介绍 自然语言处理是数据科学领域最热门的课题之一。公司在这一领域投入大量资金进行研究。每个人都在努力了解自然语言处理及其应用,并以此为生。 你知道为什么吗? 因为仅仅在短短几年的时间里,自然语言处理已经发展成为一种无人能想象的强大而有影响力的东西。 为了了解自然语言处理的力量及其对我们生活的影响,我们需要看看它的应用。因此,我列出了自然语言处理的十大应用。 那么,让我们从自然语言处理的第一个应用开始。 搜索自动更正和自动完成 每当你在谷歌上搜索某个东西,在输入2-3个字母后,它会显示可能的搜索词。或者,如果你搜索一些有错别字的东西,它会更正它们,仍然会找到适合你的相关结果。是不是很神奇? 它是每个人每天都在使用的东西,但从来没有太多的关注它。这是自然语言处理的一个很好的应用,也是一个很好的例子。它影响世界上数百万人,包括你和我。 搜索自动完成和自动更正都有助于我们更有效地找到准确的结果。现在,其他许多公司也开始在他们的网站上使用这个功能,比如Facebook和Quora。 搜索自动完成和自动更正背后的驱动引擎是语言模型。 语言翻译 你有没有用谷歌翻译来找出不同语言中的某个词或短语?它将一段文字用一种语言翻译成另一种语言的容易程度是相当惊人的,对吧?它背后的技术是机器翻译。

LIME算法:模型的可解释性(代码实现)

淺唱寂寞╮ 提交于 2020-07-26 10:56:56
在这篇笔记中分享前段时间我对于LIME算法的调研。 一、算法简介 LIME算法是Marco Tulio Ribeiro2016年发表的论文《“Why Should I Trust You?” Explaining the Predictions of Any Classifier》中介绍的局部可解释性模型算法。该算法主要是用在文本类与图像类的模型中。 1.算法主要用途 在算法建模过程中,我们一般会用测试集的准确率与召回率衡量一个模型的好坏。但在和客户的实际沟通时,单单抛出一个数字就想要客户信任我们,那肯定是不够的,这就要求我们摆出规则,解释模型。但不是所有的模型都是规则模型,一些黑盒模型(比如神经网络)有着更高的准确率,但是无法给出具体的规则,无法让普通人理解和信任模型的预测结果,这种时候,就可以利用本文要介绍的LIME算法,全称Local Interpretable Model-agnostic Explanations,可以理解为模型的解释器。 可以从两个方面说明我们为什么需要模型解释器,一方面是用户需要信任预测结果,另一方面是建模者需要信任模型。 2、用户需要信任预测结果 在很多行业,比如医生、法律行业,都需要就模型的预测结果给出充分的理由,否则就无法取得用户的信任。举一个论文中提到的例子,一个医学模型判断病人患病,通过LIME算法同时给出病人的病史症状包括喷嚏、头痛等特征

智趣丨AI也能写高考作文?我们用清华刚刚开源的「九歌」试了试

荒凉一梦 提交于 2020-07-25 09:42:38
  转自 关注前沿科技 量子位 今天   晓查 郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI   今天是高考第一天,我猜,你一定在看全国各地那些奇奇怪怪的高考作文题,还要纠结一下:   这题目,该怎么写?   那,写不出来不如扔给AI,看看能生成什么文章?   正好,最近清华的AI写诗模型「九歌」开源了,给它一个关键词,它就能立即赋诗一首。   虽然大部分考卷都规定了“诗歌除外”,但我们偏要拿它来试一试。 AI的高考作文   「九歌」可以生成绝句、律诗、藏头诗、词等多种诗词,在Demo网站里,只要输入关键词,就可以自动生成。   那我们就把各地的作文题目当做关键词放进去试试。且看各地考卷在AI笔下会变成什么样?    天津卷“中国面孔”   “中国面孔”是全球热播纪录片里充满家国情怀的杜甫,是用中医药造福人类荣获诺贝尔奖的屠呦呦,是医务工作者厚重防护服下疲惫的笑脸,是快递小哥在寂静街巷里传送温暖的双手……也是用各种方式共同形塑“中国面孔”的你和我。   走过2020年的春天,你对“中国面孔”又有什么新的思考和感悟?请写一篇文章。   先来一首七言绝句:      能看出是一首有民族自豪感的诗,虽然开头的“平生面面”让人有点看不懂,但后两句“四海共推周典礼,百年谁识汉文高”看起来对仗工整的两句诗。   再来一首《忆江南·中国面孔》:     

中国AI青年科学家:当天才遇上烟火气

淺唱寂寞╮ 提交于 2020-07-25 00:29:52
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 编者按:本文来自微信公众号“南方人物周刊”,36氪经授权发布。 来源 | 南方人物周刊(ID:Peopleweekly) 文 | 吴绵 图片来源 | 视觉中国 5月,上海商场四处是“五五购物节”的促销海报。全民消费浪潮下,朱明杰不忘和海外的朋友分享薅羊毛心得。十分钟后,他把朋友拉进了“MJ和他的朋友们一起拼多多”微信群。 作为深度网购用户,朱明杰和今天的中国消费者们在手机上看到什么、买到什么,会如何在技术的指引下走向未来生活,从某种意义上说,正是由他自己,以及和他一样的科学家们对算法的突破所决定的。 6月16日,朱明杰和他的前同事卢策吾等15位中国AI科学家、创业者,在《Nature》机器智能子刊联名发表了一篇论文,讨论人工智能在中国的应用和前景。这篇文章在国际科技界引发了诸多讨论,被称为“中国青年科学家的集体亮相”。 三年前,《麻省理工科技评论》首次针对中国评选了35岁以下的未来科技创新领军人物,这大概是西方世界最早开始好奇中国的这群“天才科学家”。 在西方媒体看来,中国正在成长中的这群青年人与上一辈有诸多不同。而这些不同,也即将改变中国——这个仅用三十年便穿越农业和工业社会,马不停蹄奔向信息技术革命前沿的国度。 这些35岁左右的AI科学家,曾经就是“别人家的孩子”

认知智能机器人效果展示认知智能未来机器人接口API简介介绍

我的未来我决定 提交于 2020-07-24 20:39:46
认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息的理解、存储、应用为研究方向,以感知信息的深度理解和自然语言信息的深度理解为突破口,以跨学科理论体系为指导,从而形成的新一代理论、技术及应用系统的技术科学。 认知智能的核心研究范畴包括:1.宇宙、信息、大脑三者关系;2.人类大脑结构、功能、机制;3.哲学体系、文科体系、理科体系;4.认知融通、智慧融通、双脑(人脑和电脑)融通等核心体系。 认知智能四步走:1.认知宇宙世界。支撑理论体系有三体(宇宙、信息、大脑)论、易道论、存在论、本体论、认知论、融智学、HNC 等理论体系;2.清楚人脑结构、功能、机制。支撑学科有脑科学、心理学、逻辑学、情感学、生物学、化学等学科。3.清楚信息内涵规律规则。支撑学科有符号学、语言学、认知语言学、形式语言学等学科。4.系统落地能力。支撑学科有计算机科学、数学等学科。 接口申请官网地址: www.weilaitec.com 接口地址(例子): http://a239p06512.zicp.vip/Web/BuAppJava.bujqrex?apikey="+apikey+"&msg="+msg+"&ip="+ip 用户端消息内容。 String msg ="你在干嘛呀?"; apikey参数。这个apikey就是网站上申请的APIKEY

GAITC专题论坛丨AI女性:让科学绽放智慧柔美光辉

北城以北 提交于 2020-07-24 15:34:11
     020全球人工智能技术大会将于7月25-26日登陆杭州未来科技城。除了令人瞩目的大会主旨论坛,同期举行的20场专题论坛嘉宾层次高、主题范围广,聚焦模式识别、脑科学与人工智能等人工智能多个热门领域,内容精彩纷呈,观点将极具创见和现实针对性。   在国家不断鼓励创新的时代背景下,越来越多的女科学家不断坚持梦想,在科学研究中自立自强、自尊自信,绽放出耀眼光芒,真正撑起了祖国科研事业的“半边天”。7月26日上午,由北京理工大学人工智能研究院院长、特聘教授、CAAI Fellow黄河燕;澎思科技首席科学家、新加坡研究院院长申省梅担任论坛主席的 AI女性未来论坛 将拉开帷幕。当前,我国女性科学家的人数远远少于男性,科研界对科研女性的流失现象越来越重视,而激励她们继续从事科学事业显得尤为关键。敬请锁定本场论坛,让我们共同聆听“她声音”,成就“她力量”。 大会官网   扫码访问大会官网,获取最新会议动态   加入2020GAITC交流群,了解更多会议精彩内容 论坛主席       黄河燕    北京理工大学人工智能研究院院长、特聘教授    CAAI Fellow   CAAI第六、七届副理事长,CAAI女科工委主任委员;教育部计算机专业教育指导委员会副主任委员、中国中文信息学会和中国软件行业协会副理事长、信息技术新工科产学研联盟常务副理事长兼秘书长

模型压缩95%,MIT韩松等人提出新型Lite Transformer

人走茶凉 提交于 2020-07-24 12:37:42
Transformer 的高性能依赖于极高的算力,这让移动端 NLP 严重受限。在不久之前的 ICLR 2020 论文中,MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer,向在边缘设备上部署移动级 NLP 应用迈进了一大步。 选自arXiv,作者:Zhanghao Wu等,机器之心编译,参与:小舟、魔王。 虽然推出还不到 3 年,Transformer 已成为自然语言处理(NLP)领域里不可或缺的一环。然而这样流行的算法却需要极高的算力才能实现足够的性能,这对于受到算力和电池严格限制的移动端来说有些力不从心。 在 MIT 最近的研究《Lite Transformer with Long-Short Range Attention》中,MIT 与上海交大的研究人员提出了一种高效的移动端 NLP 架构 Lite Transformer,向在边缘设备上部署移动级 NLP 应用迈进了一大步。该论文已被人工智能顶会 ICLR 2020 收录。 该研究是由 MIT 电气工程和计算机科学系助理教授韩松领导的。韩松的研究广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR2016 最佳论文,论文 ESE 稀疏神经网络推理引擎 2017 年曾获得芯片领域顶级会议——FPGA 最佳论文奖

第62天:HTTP 入门

坚强是说给别人听的谎言 提交于 2020-07-24 08:02:46
by 轩辕御龙 HTTP 入门 HTTP,全称“ 超文本传输协议 (HyperText Transfer Protocol)”,是构建我们今天所熟知的万维网的基础,也是我们在访问互联网时最常见的一种协议类型。 我们在打开一个网页的时候通常都会注意到网址的前面有一个统一的标识“http://”(或“https://”,本文不予讨论),这代表的就是“本次访问使用 HTTP 协议进行通信”。 那么问题来了:为什么我们在通信的时候要用到这个协议呢? 简单来讲,所谓“ 协议 ”其实就是一个 规范 、一个 标准 ,大家共同遵守。通信双方通过使用统一的规范,能够有效地将信息结构化,让相应的信息各归其位,正是“上帝的归上帝,凯撒的归凯撒”。这样一来就可以大大地降低信息传输的成本。 1. 协议的必要性 假设一下,如果我们在因特网上传输信息的时候不遵守某个协议,会出现什么情况呢?最直接的影响就是鸡同鸭讲。 我们设想几个简单的情况。 两个人交流的时候。A 说:“小B,你去帮我取一下资料,三楼档案室。” B 回复说:“好嘞哥,收到。”这段对话一切正常。 但机器之间通信,不像人类可以依靠双耳效应定位声源、可以靠音色来确定对象,机器的语言就是电流,准确地说就是高低电平。一段消息发出之后,这段信号就会淹没在电信号的汪洋大海中,再也无法直接确定它的发送者、接收者,如果在消息中不增加额外的信息

BERT生成文本摘要

孤者浪人 提交于 2020-07-24 07:21:40
作者|Daulet Nurmanbetov 编译|VK 来源|Towards Data Science 你有没有曾经需要把一份冗长的文件归纳成摘要?或者为一份文件提供一份摘要?如你所知,这个过程对我们人类来说是乏味而缓慢的——我们需要阅读整个文档,然后专注于重要的句子,最后,将句子重新写成一个连贯的摘要。 这就是自动摘要可以帮助我们的地方。机器学习在总结方面取得了长足的进步,但仍有很大的发展空间。通常,机器摘要分为两种类型 摘要提取:如果重要句子出现在原始文件中,提取它。 总结摘要:总结文件中包含的重要观点或事实,不要重复文章里的话。这是我们在被要求总结一份文件时通常会想到的。 我想向你展示最近的一些结果,用BERT_Sum_Abs总结摘要,Yang Liu和Mirella Lapata的工作Text Summarization with Pretrained Encoders: https://arxiv.org/pdf/1908.08345.pdf BERT总结摘要的性能 摘要旨在将文档压缩成较短的版本,同时保留其大部分含义。总结摘要任务需要语言生成能力来创建包含源文档中没有的新单词和短语的摘要。摘要抽取通常被定义为一个二值分类任务,其标签指示摘要中是否应该包含一个文本范围(通常是一个句子)。 下面是BERT_Sum_Abs如何处理标准摘要数据集:CNN和Daily Mail

解密飞桨多任务学习框架PALM,让你的模型开启“学霸”模式

蹲街弑〆低调 提交于 2020-05-09 20:39:04
随着预训练技术的到来,作为深度学习重要应用领域之一,自然语言处理也迎来了新的春天。通过使用预训练模型可以大大减少模型训练对数据的依赖,仅需要使用少量数据在下游任务中微调(Fine-tune),就可以获得效果非常优秀的模型。不过如果希望获得更好的效果,该怎么办呢?有人也许会说:多训练几个epoch嘛!但是对于这种单一任务且有监督学习的微调方式,单独增加训练epoch并不是一个好方法,过度的训练容易损害模型的泛化能力,发生过拟合现象。 ​ 要知道训练一个模型就像在养育一个孩子一样。在子女的教育问题上,每个家长都会投入尽可能多的人力和资源,希望把自己孩子教育成才,能够举一反三、触类旁通,成为一个“学霸”。 但是如果到考试时发现自己的孩子只会做课本上的原题,题目稍微改改就做不好,我想家长一定会欲哭无泪吧。相比模型训练又何尝不是呢?开发者不仅要投入大量的服务器硬件资源,还要辛辛苦苦写代码,结果最后训练出的模型泛化能力极差,跳出训练数据的范围,就啥也干不了,相信这绝对不是任何一个开发者希望看到的。 那么有什么方法可以提高模型的泛化能力,让模型可以更加聪明呢?其实可以在微调阶段引入辅助任务信号,通过多任务学习的方式,即将多个目标任务场景联合学习,就可以显著提高模型所学到的表征的通用性,使得模型具备更强的泛化能力。 但是基于传统的深度学习框架,多任务学习方式的代码实现门槛较高,策略调整不够灵活