自然语言处理

纪念机器翻译概念的诞生:重新认识瓦伦·韦弗先生

放肆的年华 提交于 2020-10-25 00:37:19
来源:AI科技评论 作者:张家俊 编辑:丛 末 机器翻译旨在利用计算机实现自然语言之间的自动翻译,一直是自然语言处理与人工智能领域的重要研究方向,近年来更是取得了突破性进展,已成为大众较为熟知和常用的技术。 现在一提起机器翻译技术的起源,对该研究领域稍有了解的人们都知道是美国的瓦伦·韦弗(Warren Weaver,后面简称韦弗)最先于1947年提出机器翻译概念并于1949年7月正式记录于名为《翻译》的备忘录。不过,可能大多数人不是特别了解韦弗究竟是何许人也以及他怎么会提出机器翻译的概念。作为机器翻译领域的一名研究者,我对这些问题非常感兴趣,也希望让更多人了解机器翻译概念诞生的那些趣事和史实。 瓦伦·韦弗 如果让大家猜测的话,可能会认为韦弗是一位从事语言翻译的学者,由于人工翻译任务繁重从而产生利用计算机进行自动翻译的想法。其实不然,他的人生经历着实会让人惊叹不已。 如果您认为他提出了机器翻译的概念已经足够伟大,那么可以再告诉您 韦弗是位数学家,二战期间曾帮助美军革新了防控火控系统和轰炸机技术,而且他首次提出了分子生物学的概念,他还与信息论之父香侬一同撰写了划时代意义的著作《通信的数学原理》 (The Mathematical Theory of Communication)。有点尴尬的发现,机器翻译似乎仅仅是他的一个小小爱好而已。 如此多不同领域的贡献竟然集中于一人之身

AI也能精彩表达,如何高效掌握文本生成?

删除回忆录丶 提交于 2020-10-24 13:01:05
最近GPT-3掀起了一波“炒作”浪潮,并在AI文本生成领域内掀起了一波的创新浪潮。 GPT-3的与众不同之处在于它的运行规模和完成一系列令人难以置信的任务,这种不可置信的深度和复杂性使输出也具有复杂性,从而让GPT-3成为一种非常灵活的工具,例如: 基于问题的搜索引擎 与历史人物交谈的聊天机器人 解决语言和语法难题 基于文本描述的代码生成 文本的风格迁移 编写吉他曲谱 设计密室逃生游戏方案 …… GPT-3是如此庞大,以至于所有这些不同功能都可以在其中实现。用户只需要输入正确的提示就可以调教好它。 那么, 如何才能掌握GPT?挑战最前沿的GTP实践应用? 本号强烈推荐你参加 《文本生成任务——GPT系列模型训练营》 ,前百度算法工程师从理论解读到代码实操,让你轻松掌握文本生成任务。内容不错,推荐给你们。 3天时间,带你挑战最前沿的GTP实践应用 ▼ 仅需 3天 时间,每天 120分钟 左右 课程配备有专职 班主任督促学习、群内互动交流干货分享不断、更有资深助教 为大家在线答疑解惑。深度掌握GPT系列模型,帮助你找到快速入门自然语言处理——文本生成方向! 限时福利 9月22日 19点前 早鸟价 仅需 49 元 原价399元 按照要求 3天全勤全部返还 = 0元学 扫描下方二维码 报名 每递增200人价格将上涨50元 ????立即扫码加入我们???? 无论你是经验丰富的算法工程师

内容推荐算法:异构行为序列建模探索

徘徊边缘 提交于 2020-10-24 06:27:19
很多秃头小可爱沉迷熬夜逛淘宝,以下是 来自宇宙洪荒之力的最新线报: 男生比女生多 天蝎座多 夜间小裙子搜索量位居第一 ...... 尤其,每晚有1700万人在淘宝只逛不买,他们到底在干什么? 看完视频和下方文章,你就知道为什么上头了。 前言 来洋淘, 更有young! 洋淘轻应用的内容均是手淘用户的真实购后分享, 在这里,你可以个性化地浏览他人的美好生活, 并鼓励自我表达与分享。 图1. 洋淘轻应用截图, 左) 为双列流, 右) 为详情页 在推荐任务上,同导购产品相比,洋淘场景有着自身的特性: 新用户冷启严峻,六成以上的用户无洋淘场景内的历史内容点击; 老 用户内容兴趣也稀少,历史内容点击数不超过10,反观商品点击数却高达数倍; 用户在电商与内容两个 domain 的兴趣差异较大。 统计日志发现,电商兴趣对洋淘场景下内容点击样本的覆盖度仅为 30% 。 于是,如何把跨域的异构行为用好,提升用户的浏览深度就显得弥足珍贵。我们从 召回 , ctr预估 两大关键环节均作了探索与创新, 大幅提升了推荐效果, 取得了显著的业务收益。 向量召回模型In_Match 前文提到内容兴趣不够用,我们首先基于i2i尝试了商品与内容的混合协同,取得了一定的收益。然后基于电商兴趣的标题作相关内容的严格相似召回,却收益为负,这说明跨域的兴趣不可生搬硬套,也与前文的兴趣差异统计相吻合。

时间序列神器之争:prophet VS lstm

扶醉桌前 提交于 2020-10-24 00:43:10
一、需求背景 我们福禄网络致力于为广大用户提供智能化充值服务,包括各类通信充值卡(比如移动、联通、电信的话费及流量充值)、游戏类充值卡(比如王者荣耀、吃鸡类点券、AppleStore充值、Q币、斗鱼币等)、生活服务类(比如肯德基、小鹿茶等),网娱类(比如QQ各类钻等),作为一个服务提供商,商品质量的稳定、持续及充值过程的便捷一直是我们在业内的口碑。 在整个商品流通过程中,如何做好库存的管理,以充分提高库存运转周期和资金使用效率,一直是个难题。基于此,我们提出了智能化的库存管理服务,根据订单数据及商品数据,来预测不同商品随着时间推移的日常消耗情况。 二、算法选择 目前成熟的时间序列预测算法很多,但商业领域性能优越的却不多,经过多种尝试,给大家推荐2种时间序列算法:facebook开源的Prophet算法和LSTM深度学习算法。 现将个人理解的2种算法特性予以简要说明: (1)、在训练时间上,prophet几十秒就能出结果,而lstm往往需要1个半小时,更是随着网络层数和特征数量的增加而增加。 (2)、Prophet是一个为商业预测而生的时间序列预测模型,因此在很多方便都有针对性的优化,而lstm的初衷是nlp。 (3)、Prophet无需特征处理即可使用,参数调优也明确简单。而lstm则需要先进行必要的特征处理,其次要进行正确的网络结构设计,因此lstm相对prophet更为复杂。

1024,阿里云惊喜 “加油包” 让你 “猿” 力觉醒!

无人久伴 提交于 2020-10-24 00:33:33
1024程序员节是广大程序员共同的节日,程序员就像是一个个1024以最核心、踏实、低调的功能模块,搭建起科技世界。 现如今,技术更新迭代越来越快,人类生活愈发便捷化、智能化。这背后自然离不开一批批程序员的默默耕耘与辛苦付出。他们起早贪黑、兢兢业业,认真地编写程序、修改BUG,开发了数不清的软件。不得不说,正是因为有他们的存在,我们的生活才更加方便。 今年,阿里云在1024程序员节将免费发放价值4500元的“1024专属加油包”,助力广大程序员跑赢焦虑的2020。 1024专属加油包明细如下: 如何参与? 第一步,点击活动页面“分享好友”发起活动 第二步,复制链接邀请好友助力 第三步,好友登陆账户完成“点击助力” 第四步,完成5人助力,即可获得加油包奖励 活动规则: 一、 活动对象 1、阿里云官网注册用户均可以参加,同一用户仅有1次参与分享和助力的机会,不可重复参与活动。 2、完成活动任务要求即可通过登录阿里云APP领取奖品,登录APP手机号与阿里云账号绑定号码一致,且同一手机号仅支持1次奖品领取 二、 活动时间 2020年10月22日至2020年11月11日。 三、 活动规则 1、分享助力活动 a.活动期间,完成阿里云账号登录的用户即可发起助力活动,每个阿里云用户只有一次获得加油包机会。 b.参与活动的用户需邀请5位好友在活动期间内完成助力

金山AI团队:从理论突破到应用场景落地

百般思念 提交于 2020-10-23 18:45:19
     作者 | 陈彩娴   一提起雷军,绝大多数人首先会想到小米,对金山软件却知之甚少。雷军作为金山软件董事长,曾带领金山度过最艰难时期。   1996年,金山软件遭遇前有微软、后有盗版的双重打击跌入谷底:1995年,微软进入中国市场,Windows 95与OFFICE系列抢占了WPS大部分市场份额;与此同时,一张盗版光盘,640兆囊括了市面上几乎所有主流软件,包括金山软件的产品。面对困局,金山何去何从?   雷军苦苦思考六个月,最后决定做WPS的同时,在游戏、工具软件领域发力,开始游击战、以战养战。1997年,金山推出《剑侠情缘I》、《WPS97》、《金山词霸》等等功能强大的产品,在游戏、工具软件与字处理系统领域成功制造了3个市场热点,死里逃生。      (WPS97发布,雷军、求伯君演讲)   回忆这段往事,雷军曾归纳,自己最可贵的创业品质有两点: 一是目标远大,二是创业激情。   除此之外,雷军系的成功还归因于另一个重要的品质: 聚焦 。   这三个品质不仅续写着雷军本人的传奇创业故事,也在继续引领着他的各派团队创造辉煌的篇章,包括今年5月在纳斯达克上市的金山云,也包括一直低调行事的金山人工智能事业部。   雷军高度重视人工智能的发展,2017年亲自指导成立了金山人工智能事业部。这所实验室隐藏在海淀区小米科技园,集结一众顶尖技术人才,以认知AI为核心

阿里云峰会 | 来听听达摩院技术专家是怎么讲智能外呼机器人技术

心已入冬 提交于 2020-10-23 17:45:32
近日,在2020阿里云“全速重构”峰会上,阿里巴巴副总裁许诗军提到一个数字“11182”,在海口抗疫期间,利用AI技术在2小时内完成11182次外呼,极大提升防疫人员工作效率,而这背后正是智能外呼机器人技术的应用。 阿里云通信智能外呼机器人是通过呼叫控制,结合阿里达摩院语音转文本(ASR)、语音合成(TTS)、自然语言处理(NLP/NLU)等技术手段以及阿里云大数据能力,针对传统客户服务领域外呼难题,推出的智能呼叫产品。 企业通过阿里云智能外呼机器人可以实现企业服务流程打通,通过简单界面配置操作即可完成复杂的外呼场景。企业可根据实际业务场景编排外呼使用的文字内容,机器人通过外呼任务和预置的文字内容自动触达用户,通过外呼机器人来完成技术水平低、重复度高的工作,不仅节省成本,也提升了工作效率与收入。 用户在接通电话后,AI外呼语音会根据预设的对话策略选择相应文字内容,通过语音合成技术TTS转换为语音播放给用户,当用户回应后,通过智能语音识别技术ASR翻译成文字,机器人对文字进行语义分析理解后,根据知识图谱和对话策略再选择对应文字内容,再通过自然语言生成技术生成文本,最后通过语音合成生成语音响应客户,完成一轮通话交互。 智能外呼机器人可广泛应用于电商、汽车、教育、IT、餐饮、政务、旅游等各个行业领域,实现客户意向的确认、客户信息确认、活动通知、产品销售、满意度调查等业务

百度发布首个大规模隐变量对话模型PLATO

冷暖自知 提交于 2020-10-23 10:31:48
百度于去年10月公布的基于飞桨开源深度学习平台开发的通用领域对话生成预训练模型PLATO,相关论文最近已正式被ACL 2020接收。 PLATO是业界首个基于隐空间(Latent Space)的端到端的预训练对话生成模型。据悉,该模型利用隐向量来表示对话的潜在方向,从而达到对话内容丰富度和流畅度的显著提升。针对具体的对话任务,基于PLATO可以用少量数据训练得到非常流畅的对话系统。 论文名称: PLATO:Pre-trained Dialogue Generation Model with Discrete Latent Variable 论文地址: https://arxiv.org/abs/1910.07931 预训练模型及代码: https://github.com/PaddlePaddle/Research/tree/master/NLP/Dialogue-PLATO 引言 研发开放领域(Open-Domain)的对话机器人,使得它能用自然语言与人自由地交流,这一直是自然语言处理领域终极目标之一。 对话系统的挑战非常多,其中有两点非常重要,一是大规模开放域多轮对话数据匮乏; 二是对话中涉及常识、领域知识和上下文,因此在对话回复时,存在“一对多”问题。 比如这个例子“李雷:今天好冷啊,外面风好大。”韩梅梅Bot可以怎样回复李雷呢? A.是啊,天气预报说今天气温骤降10度呢。

自然语言处理动手学Bert文本分类

泪湿孤枕 提交于 2020-10-23 08:31:33
Bert作为目前自然语言处理领域最流行的技术之一,文本分类作为自然语言处理领域最常见的任务之一,Pytorch作为目前最流程的深度学习框架之一,三者结合在一起将会产生什么样的花火,本套课程基于Pytorch最新1.4版本来实现利用Bert实现中文文本分类任务,延续动手学系列课程风格,全程手敲代码,跟着老师一行一行代码撸起来。 来源: oschina 链接: https://my.oschina.net/u/4324861/blog/4685262

ERNIE时延降低81.3%,飞桨原生推理库Paddle Inference再升级

一个人想着一个人 提交于 2020-10-23 03:37:31
随着深度学习技术的成熟和人工智能的发展,机器开始变得越来越“聪明”,越来越了解用户的喜好和习惯。 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu 近年来对于NLP的研究也在日新月异的变化,有趣的任务和算法更是层出不穷,百度提出知识增强的语义表示模型 ERNIE 就是其中的佼佼者。 ERNIE 在语言推断、语义相似度、命名实体识别、情感分析、问答匹配等各类NLP中文任务上的模型效果 全面超越 Bert ,成为NLP中文任务中的主流模型, ERNIE 2.0的论文(https://arxiv.org/abs/1907.12412)也被国际人工智能顶级学术会议AAAI-2020收录。 然而在模型效果大幅度提升的同时,模型的计算复杂性也大大增加,这使得 ERNIE 在推理部署时出现延时高,推理速度不理想 的情况,给产业实践带来了极大的挑战。 ​ 飞桨 开源框架1.8版本中, Paddle Inference在算子融合、TensorRT子图集成和半精度浮点数(Float 16)加速