自然语言处理

OpenAI第三代超强NLP模型,能设计网页能写邮件,看看图灵测试它能闯几关?

旧街凉风 提交于 2020-08-10 13:45:57
      AI 又进化了。   你正在设计网页,我要一个“长得像西瓜的按钮”——   然后机器就自动生成了这个:      还可以做其它制定:   大字写:欢迎来到我的通讯页,底下一个蓝色的订阅按钮。      对黑字不满意?可以加一个“in red”(large text in red),就变成红色字体。      你跟它说:我要一个彩虹色的按钮!   它就能给你集齐七种颜色。      做到这些,一行代码都不要写! 只需要讲人能听懂的话,机器就可以理解你的意思,然后生成代码,最终实现效果。   实现这个功能的程序员,自己都忍不住惊呼:简直太酸爽了!      AI 能如此理解人话,善解人意,是因为大名鼎鼎的研究机构 Open AI 又开发了第三代语言模型 GPT3,并开放了申请使用。    GPT-3,1750 亿参数,45TB 训练数据   2020 年 5 月 29 日,知名 AI 研究机构 OpenAI 公布了其下一代文本生成神经网络 GPT-3(Generative Pretrained Transformer 3)的研究论文。   这是一款无监督式 Transformer 语言模型,作为 GPT-2 的后继,GPT-3 完整版的训练规模包含了 1750 亿个参数,是前者的 117 倍,是今年 2 月份微软刚刚推出全球最大深度学习模型 Turing NLP 的几十倍

社交网站的数据挖掘与分析pdf版本|网盘下载地址附提取码|

▼魔方 西西 提交于 2020-08-10 13:44:02
点击此处进入网盘下载地址 提取码:btqx 作者介绍: 马修·罗塞尔(MatthewA.Russell),DigitalReasoningSystems公司的技术副总裁和Zaffra公司的负责人,是热爱数据挖掘、开源和Web应用技术的计算机科学家。他也是《Dojo:TheDofinitiveGuide》(O'Reilly出版社)的作者。在LinkedIn上联系他或在Twitter上关注@ptwobrussell,可随时关注他的最新动态。 简介: 出版社: 机械工业出版社 ISBN:9787111369608 版次:1 商品编码:10922249 品牌:机工出版 包装:平装 丛书名: OReilly精品图书系列 开本:16开 出版时间:2012-02-01 用纸:胶版纸 页数:316 社交网站的数据挖掘与分析目录: 前言第1章 绪论:Twitter 数据的处理 Python 开发工具的安装 Twitter 数据的收集和处理 小结 第2章 微格式:语义标记和常识碰撞 XFN 和朋友 使用XFN 来探讨社交关系 地理坐标:兴趣爱好的共同主线 (以健康的名义)对菜谱进行交叉分析 对餐厅评论的搜集 小结 第3章 邮箱:虽然老套却很好用 mbox:Unix 的入门级邮箱 mbox+CouchDB= 随意的Email 分析 将对话线程化到一起 使用SIMILE Timeline 将邮件"事件

[Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算

风流意气都作罢 提交于 2020-08-10 12:25:34
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。前一篇文章分享了CNN实现中文文本分类的过程,并与贝叶斯、决策树、逻辑回归、随机森林、KNN、SVM等分类算法进行对比。这篇文章将详细讲解通过自定义情感词典(大连理工词典)实现情感分析和情绪分类的过程,并与SnowNLP进行对比,为后续深度学习和自然语言处理(情感分析、实体识别、实体对齐、知识图谱构建、文本挖掘)结合做基础,希望对您有所帮助~ 本专栏主要结合作者之前的博客、AI经验和相关视频及论文介绍,后面随着深入会讲解更多的Python人工智能案例及应用。基础性文章,希望对您有所帮助,如果文章中存在错误或不足之处,还请海涵~作者作为人工智能的菜鸟,希望大家能与我在这一笔一划的博客中成长起来。写了这么多年博客,尝试第一个付费专栏,但更多博客尤其基础性文章,还是会继续免费分享,但该专栏也会用心撰写,望对得起读者,共勉! TF下载地址: https://github.com/eastmountyxz/AI-for-TensorFlow Keras下载地址: https://github.com/eastmountyxz/AI-for-Keras 情感分析地址: https://github.com/eastmountyxz/Sentiment-Analysis PS:本文参考了作者YX学生的学习思路

为什么说RPA是金融科技领域的重要推动者?

假装没事ソ 提交于 2020-08-10 11:55:35
为什么说RPA是金融科技领域的重要推动者? RPA(机器人流程自动化)技术是金融科技领域的重要推动者。通过与金融业务的深入融合,RPA可以为金融机构发现大量的转型机会,重塑客户体验。 RPA助力金融科技实现变革的4个关键点 1、跨平台、跨系统操作 RPA可以实现跨平台、跨系统操作的无缝衔接,并且无需改变现有系统架构,因此可以用于弥合不同遗留软件。RPA可以作为一种集成机制,将遗留解决方案集成到新的IT系统。RPA软件机器人可以在新旧应用程序之间推拉数据,以编排可能驻留在数据竖井中的工作流。这样在最基本的层面解决银行及其他金融机构发展金融科技过程中的后顾之忧,对现有系统的干扰降至最小。 2、降低金融技术应用的风险 RPA还可以降低新金融技术应用的潜在风险。基于软件测试自动化的RPA,用来验证新的定制开发效果,从而可以在对现有流程风险最小的情况下开发新的金融服务。 3、接手常见业务流程 在客户服务方面,RPA也可以直接负责一些常见的业务。例如, RPA可以根据手机摄像头上传到金融科技应用的文档照片,结合OCR及NLP技术自动识别并填充数据字段。在很多银行的业务流程,比如手机开户、存款,信用卡申请,贷款申请和审核中都可以得到应用。 4、向更高层次的RPA迈进 对于“更为成熟的投资者”,金融机构还可以利用RPA的技术提供“混合机器人顾问服务”,由算法和机器人进行财富管理量化跟踪

【NLP】老司机带你入门自然语言处理

心已入冬 提交于 2020-08-10 11:53:38
自然语言处理是一门用于理解人类语言、情感和思想的技术,被称为是人工智能皇冠上的明珠。 随着深度学习发展,自然语言处理技术近年来发展迅速,在技术上表现为BERT、GPT等表现极佳的模型;在应用中表现为chatbot、知识图谱、舆情监控等基于NLP技术的产品在市场上的大规模出现。 基于此,各类公司开始出现NLP算法工程师的需求,待遇在软件工程师岗位中处于 相当 上游的 水平。 基于此,不少同学和工程师有学习NLP的愿望,本文对首先NLP做一个简单的介绍;然后,作为一个过来人,为初学NLP的同学提供一些必要的建议。 文末有我们的公众号的二维码,扫描关注,可以领取 系统的NLP资料。 作者&编辑 | 小Dream哥 1 NLP简介 每次与行外之人谈起自然语言处理(Natural Language Process,NLP),对方往往都是一片茫然。因此,常常感到很苦恼,如何跟一个从未接触过NLP的人,解释NLP到底是什么?毕竟这是一门这么重要的技术(学科),它的发展与应用,会极大的影响这个世界上的每一个行业,每一个人。 那么,到底什么是NLP呢?所谓自然语言处理,就是用计算机(或者其他计算单元,以下类似)来处理人类的自然语言。那么要理解NLP,首先要理解什么是自然语言。所谓“自然语言”,是相对于计算机语言(计算机能够理解的语言,如汇编、C语言等)而言的,人类日常使用的语言,例如我们都讲的中文

看清华 ACL 2020 论文直播,送书!刘知远亲签

寵の児 提交于 2020-08-10 10:52:27
     ACL 2020 第四期系列直播即将开始!除了直播,还有福利,送清华大学刘知远副教授亲自签名的新书!   2020年4月3日,NLP 顶会 ACL 2020 公布录用论文之后,AI科技评论相继与哈工大、复旦大学、清华联合举办三期「系列解读」直播活动,受到广大师生的好评。   现在,我们进行第四期系列直播,来自清华大学自然语言处理实验室(THUNLP),   THUNLP 是由孙茂松教授领导,主要从事中文信息处理、社会计算和知识图谱研究,实验室 “二刘老师”(刘洋、刘知远)是我国NLP领域的青年代表,刘洋教授在机器翻译领域造诣颇深,刘知远副教授则聚焦语言理解与知识计算。   THUNLP 团队在本届 ACL 会议上共有 7 篇文章入选,内容覆盖 NLP 研究的多个方面。   AI 科技评论联合 THUNLP 团队,推出的第四期实验室系列解读直播活动 ——「 ACL 2020 清华大学 THUNLP 系列解读 」,将在5月13日-18日,连续 6 天进行 6 场直播,全面覆盖清华大学 THUNLP 课题组在 ACL 2020 上相关的全部工作。    福利放送: 在每场直播中,我们会挑出两位幸运听众,寄送一本清华大学刘知远副教授等人撰写的新书《 大数据智能:数据驱动的自然语言处理技术 》。      这本书是介绍大数据智能分析技术的科普书籍

三年前打败了柯洁的人工智能,真的改变这个世界了吗?

空扰寡人 提交于 2020-08-10 09:52:16
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 编者按:本文来自微信公众号“资本侦探”(ID:deep_insights),作者:李婷婷,36氪经授权发布。 核 心 要 点 近几年人工智能风口再起,实际上是技术发展、数据沉淀以及场景延展等多个因素,厚积薄发的结果。 人工智能商业化变现困难的根本原因,仍是底层研究的制约下难以规模化落地的现实。 新基建的加持,对于人工智能底层研究的投入、应用场景的拓展等将大有裨益。 能让马云、马化腾、李彦宏等业界大佬共同看好的方向,除了人工智能,可能很难找到第二个。 在7月9日举行的2020世界人工智能大会云端峰会上,“三马”(马云、马化腾、马斯克)、“二宏”(李彦宏、张文宏)少见地隔空同台。此外,还有包括七位图灵奖得主、一位诺贝尔奖得主在内的550多位业界、学术界嘉宾汇聚一堂。 大会上,以联合国数字合作高级别小组联合主席的身份出席的马云,就疫情期间社会经历的大动荡发表了自己的感悟,他认为,世界已经巨变,技术变革提前并且加速,与其担忧,不如担当,“为活下去而做的创新才是真正最强大和不可阻挡的动力”。 马云有此感叹,一定程度上是因为在疫情危机中,依赖人力、线下运转的传统行业遭受极大冲击,以人工智能为代表的新兴科技彰显出其重要性与必须性。例如,复旦大学附属华山医院感染科主任张文宏提到,

读博难,大神来支招:DeepMind科学家Sebastian Ruder提出十条实用建议

£可爱£侵袭症+ 提交于 2020-08-10 09:06:52
如何找到合适的研究方向?如何维持饱满的科研热情?如何通过读博实现长期规划?……DeepMind 科学家 Sebastian Ruder 来支招。 选自 http:// ruder.io , 作者:Sebastian Ruder,机器之心编译,机器之心编辑部。 「听过很多道理,仍然过不好这一生」?但有些道理还是有用的。 机器之心曾经报道过多篇和读博相关的文章,最近我们发现 DeepMind 研究科学家 Sebastian Ruder 也发布了一篇博客,介绍自己的读博建议。 鉴于 Sebastian Ruder 博士期间主要研究机器学习和自然语言处理,因此他给出的建议也更适用于这两个研究方向的同学。不过,这份建议并不仅限于博士生。如果你是一名独立研究者,并且想开始攻读博士学位,或者只是想单纯地学习,那么这些建议大部分也是适用的。 不过 Sebastian Ruder 建议大家,在阅读本文时做好筛选,因为每个人的情况都不相同。根据自己的具体情况选择并改良这些建议,再进行实践,或许是最好的做法。 Sebastian Ruder 一共给出了十条建议,均来自其自身实践,他认为这十条建议对长期发展也有好处。 广泛阅读 同时做两个项目 要有雄心壮志 有合作意识 积极主动 写博客 维护科研能量 发挥长处 实习或访问大学 放长线钓大鱼 广泛阅读 博士生涯鼓励每个人深入研究一个特定的主题

详解下一代神经网络-无监督对比学习框架SimCLR

不打扰是莪最后的温柔 提交于 2020-08-10 08:40:00
背景 今天介绍下SimCLR,也是Hinton老爷子在今年提出的工作。首先介绍下为什么下一代神经网络需要无监督对比学习。目前整个人工智能行业的落地,其实都依赖于监督学习模式,无论是OCR、ASR、TTS、ImageDetection,如果没有大量的标注,是很难训练出商业化程度的模型的。这个模式需要被打破,因为世界上存在太多的未知场景,完全依赖人肉标注是不行的。 所以未来无监督学习大势所趋。其实在这方面之前已经有了一些工作,比如Bert模型,就可以基于大量的unlabeled数据训练,然后在小数据集上Fintune来取得效果。类似Bert这一类的训练模式叫做自监督学习。这种模式在NLP领域会有比较好的效果,但是在图像领域效果不明显,因为图像的数据表示会比语意复杂得多。 举个简单例子,“喜欢_ _ _ _的人都会关注凡人机器学习”,这句话虽然空了4个字,但是根据上下文不难猜出这4个字是“机器学习”。所以在NLP领域,自监督是比较好实现的。但是在图像方面,假设戴了墨镜,你能根据一个人的鼻子、嘴和耳朵推测出这个人墨镜后面的样子么?所以图像领域的无监督学习要难的多。 SimCLR基本原理 SimCLR使用无监督对比学习模式在图像领域取得了突破性的成果,可以看下在ImageNet数据集的表现。 那SimCLR究竟是怎么实现的呢,我们分步骤介绍下,看下图: 第一步:Augmentation

深度学习到底有哪些经典成果?道翰天琼认知智能机器人API平台接口为您揭秘。

不打扰是莪最后的温柔 提交于 2020-08-10 08:09:50
深度学习到底有哪些经典成果? 道翰天琼认知智能机器人API平台接口为您揭秘。 2006年,Hinton 发表了一篇论文《A Fast Learning Algorithm for Deep Belief Nets》,提出了降维和逐层预训练方法,该方法可成功运用于训练多层神经网络,使深度网络的实用化成为可能。该论文也被视作深度学习领域的经典之作。 从原理来看,深度学习与神经网络紧密相关:神经网络由一层一层的神经元构成,层数越多,神经网络越深,而所谓“深度学习”就是模拟人类大脑,运用深层神经网络对输入进行“思考”、“分析”并获得目标输出的过程。 那么, 自2006年Hinton发表经典论文以来,深度学习领域又取得了哪些突破性成果呢? Google Brain前员工Denny Britz 在本文中进行了回顾整理,按时间顺序介绍了从2012年到2020年深度学习领域的数项关键性科研成就,包括运用AlexNet和Dropout处理ImageNet(2012年)、使用深度强化学习玩Atari游戏(2013年)、应用注意力机制的编码器-解码器网络(2014年)、生成对抗网络(2014-2015年)、ResNet(2015年)、Transformer模型(2017年)、BERT与微调自然语言处理模型(2018年),以及2019-2020年及之后的BIG语言模型与自监督学习等