BERT

一文讲透预训练模型的改进训练算法 ,轻松达到State of the Art

最后都变了- 提交于 2020-04-06 17:01:08
编者按 随着BERT在NLP各种任务上取得骄人的战绩,预训练模型在不到两年的时间内得到了很大的发展。B ERT和Open-GPT等预训练语言模型的引入,使整个自然语言研究界发生了革命性的变化。然而,与它们巨大的好处相比,研究人员对它们的理论和经验性质仍然知之甚少。本文回顾了有关预训练深度神经网络的相关文献及观点,以及带有词嵌入的微调策略。针对已有的两种主流算法NFT-TM和FT-NTM,综合考虑了在预训练语言模型上建立一个上层网络,并以适当的方式对两者进行微调的可能性,提出了一种新算法FT-TM。通过对一系列NLP任务的实验结果分析,比较了算法FT-TM和FT-NTM的效果,证明了新算法FT-TM的优势。 在NLP的预训练语言模型时代,针对已有的两种主流算法NFT-TM和FT-NTM,本文提出了一种新算法FT-TM。它首先在BERT的基础上建立一个上层神经网络(LSTM或者CNN等等),然后在适当的策略下对两者进行同时训练。该算法融合了NFT-TM和FT-NTM两种算法的优势,通过一系列NLP任务的实验结果表明,新算法FT-TM能取得更好的效果,而且在公开的Quora和SLNI两个问题语义等价数据集上,新算法FT-TM的效果都达到了目前的State of the Art。 01 引 言 诸如BERT [1] 和Open-GPT [2] 等预训练语言模型的引入

唐宇迪-人工智能学习路线(下篇)

社会主义新天地 提交于 2020-04-06 15:02:42
唐宇迪:51CTO微职位讲师,计算机博士,人工智能专家 内容梗概: 介绍人工智能学习步骤和知识框架。人工智能的学习可以拆分为7步,此为4-7步:下篇。 第4步:深度学习 1)深度学习概述 终于说到深度学习了,都需要学什么呢? 深度学习可以说是当下最好用的算法了,各个领域都能吃得开。其实最核心的还是在计算机视觉和自然语言处理中,因为神经网络算法更适用于图像和文本数据。 主要需要掌握的就是算法和框架了,算法就是CNN,RNN这些经典网络模型,框架就是实战的工具了例如tenorflow,Pytorch等,后面还会详细说。 深度学习听起来比较高大上,是不是比机器学习难很多? 好像现在好多小伙伴一拿到任务,第一个想法都是直接用深度学习做。如果深度学习难度大,做起来麻烦,那还能有这么高的热度吗? 其实恰恰相反,我觉得深度学习真的比机器学习简单很多,在机器学习中需要我们对不同的数据选择不同的预处理方法和特征工程构建方法。 深度学习中的套路相对来说更固定一些,而且有这些开源框架和各大经典网络架构,我们通常需要做的就是套用就可以了。整体难度要比机器学习任务更容易一些(只是相对来说!)。 2)深度学习必备算法 深度学习都需要学哪些算法呢? 算法名称 内容概述 神经网络 神经网络是最基础的,相当于为后面网络的学习打下基础 卷积神经网络 这个大家听起来很熟悉吧,深度学习中的大哥大!计算机视觉的核心网络

LSTM 为何如此有效?这五个秘密是你要知道的

核能气质少年 提交于 2020-04-05 21:51:06
图片来源 佩吉·乔卡尔 长短期记忆网络(LSTM),作为一种改进之后的循环神经网络,不仅能够解决 RNN无法处理长距离的依赖的问题,还能够解决神经网络中常见的梯度爆炸或梯度消失等问题,在处理序列数据方面非常有效。 有效背后的根本原因有哪些?本文结合简单的案例,带大家了解关于 LSTM 的五个秘密,也解释了 LSTM如此有效的关键所在。 秘密一:发明LSTM是因为RNN 发生严重的内存泄漏 之前,我们介绍了递归神经网络(RNN),并演示了如何将它们用于情感分析。 RNN 的问题是远程内存。例如,它们能够预测出“the clouds are in the…”这句话的下一个单词“sky”,但却无法预测出下面这句话中缺失的单词:“她在法国长大。现在到中国才几个月。她说一口流利的 …”(“She grew up in France. Now she has been in China for few months only. She speaks fluent …”) 随着间隔的拉长,RNN变得无法学会信息连接。 在此示例中,最近的信息表明,下一个词可能是一种语言的名称,但是如果我们想缩小哪种语言的范围,那么就需要到间隔很长的前文中去找“法国”。 在自然语言文本中,这种问题,完全有可能在相关信息和需要该信息的地方出现很大的差异。这种差异在德语中也很常见。 图片来自FB Engineering

ELECTRA中文预训练模型开源,110个参数,性能媲美BERT

佐手、 提交于 2020-03-27 17:47:10
3 月,跳不动了?>>> 感谢参考原文- http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP圈,其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10,性能却依然能与BERT、RoBERTa等模型相媲美。 在前不久,谷歌终于开源了ELECTRA,并发布了预训练模型,这对于缺大算力的高校和企业,简直是一大福音。 然而,其发布的预训练模型只是针对英语,却非如BERT那样是多语言版本。对于其他语言(例如中文)的研究者来说,则非常遗憾。 针对这一问题,今天哈工大讯飞联合实验室(HFL)基于ELECTRA开源代码,发布了中文版的 ELECTRA 预训练模型。 1、ELECTRA ELECTRA预训练模型的作者是斯坦福SAIL实验室Manning组和谷歌大脑研究团队,初次出现是在2019年北京智源大会上面。作为一种新的文本预训练模型,ELECTRA 新颖的设计思路、更少的计算资源消耗和更少的参数,迅速引起了大批关注者。特别是在去年 11 月 ICLR 2020 论文接收出炉后,曾引起NLP圈内不小的轰动。 论文链接: https://openreview.net/forum?id=r1xMH1BtvB 论文中这张图能够说明一切问题:

WSDM Cup 2020检索排序评测任务第一名经验总结

安稳与你 提交于 2020-03-26 17:02:00
3 月,跳不动了?>>> 1.背景 第13届“国际网络搜索与数据挖掘会议”( WSDM 2020 )于2月3日在美国休斯敦召开,该会议由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会共同协调筹办,在互联网搜索、数据挖掘领域享有很高学术声誉。本届会议论文录用率仅约15%,并且WSDM历来注重前沿技术的落地应用,每届大会设有的WSDM Cup环节提供工业界真实场景中的数据和任务用以研究和评测。 今年的 WSDM Cup 设有3个评测任务,吸引了微软、华为、腾讯、京东、中国科学院、清华大学、台湾大学等众多国内外知名机构的参与。美团搜索与NLP部继去年获得了 WSDM Cup 2019第二名 后,今年继续发力,拿下了WSDM Cup 2020 Task 1:Citation Intent Recognition榜单的第一名。 本次参与的是由微软研究院提出的Citation Intent Recognition评测任务,该任务共吸引了全球近600名研究者的参与。本次评测中我们引入高校合作,参评团队Ferryman由搜索与NLP部-NLP中心的刘帅朋、江会星及电子科技大学、东南大学的两位科研人员共同组建。团队提出了一种基于BERT和LightGBM的多模融合检索排序解决方案,该方案同时被WSDM Cup 2020录用为 专栏论文 。 2.任务简介 本次参与的任务一(WSDM

NLP中各种各样的编码器

假如想象 提交于 2020-03-24 00:23:55
3 月,跳不动了?>>> 作者:Pratik Bhavsar 编译:ronghuaiyang (AI公园) 原文链接: NLP中各种各样的编码器 ​ mp.weixin.qq.com 掌握文本数据的特征工程。 对文本进行编码理解语言的核心。如果我们知道如何用小向量表示单词、句子和段落,那么我们所有的问题都解决了! 在压缩向量中使用一个泛化模型来对文本进行语义表示是NLP的终极目标 👻 对文本进行编码是什么意思? 当我们将一个可变长度的文本编码成一个固定长度的向量时,我们实际上是在做特征工程。如果我们使用语言模型或嵌入模块,我们也在进行降维。 正如我在之前的一篇关于迁移学习的文章中所讨论的,有两种建模方法 — 微调和特征提取。在这篇文章中,我将讨论用深度学习来编码文本(特征提取)的各种方法,这些方法可以用于后续的任务。你可以在这篇文章中看到特征提取方法的优点。 假设你有这样一句话:“我喜欢去海滩旅行。”你正在做一个分类项目。如果你的词汇量很大,就很难训练分类器。当你使用TF-IDF得到每个单词的稀疏向量时,就会发生这种情况。 使用像GloVe这样的嵌入工具,你可以得到一个密集的100维的向量。但是像GloVe这样的模型的问题是它不能处理OOV(词汇表之外的)单词,也不能处理一词多义 —— 根据上下文,一个单词有很多可能的含义。 因此,最好的方法是使用像ELMo这样的模型或使用USE

[NLP] 远离送命题: 问答系统中语义匹配的『杀手锏』

半世苍凉 提交于 2020-03-21 03:20:10
3 月,跳不动了?>>> 转自我的公众号: 『数据挖掘机养成记』 本文将介绍一套『独创』的语义匹配方法论和一个杀手级模型 本文受众: 自然语言处理/问答系统/智能助手/搜索/推荐 等相关行业从业者 对自然语言处理/智能助手感兴趣的普通读者 1. 引子 『问&答』是人和人之间非常重要的沟通方式,其关键在于: 我们要理解对方的『问题』,并给出他想要的『答案』 设想这样一个场景,当你的女朋友or老婆大人在七夕前一晚,含情脉脉地跟你说 亲爱的,七夕快到了,可以给我换个新 手机 吗? 而此时沉迷王者峡谷的你,也许会不假思索地回答 好啊亲爱的~ 昨天刚看到拼多多九块九包邮买一送一可便宜呢~ 多买几个哦一个 壳 容易坏呀 你话音未落,一记绝杀扑面而来 (王大锤,卒,享年28) 所以,对于生活中这种随处可见的送命题,只要我们惜命&稍微上点心,是不会轻易丢分的 但对于机器来说,这却是个莫大的挑战,因为机器对相似文本的『误解』非常常见,所以我们的AI也常常被用户戏谑为『人工智障』(一个听上去很缺AI的称呼) 作为AI背后的男人,我们一直致力于提升AI的能力,让机器早日摆脱智商困境。 具体地,针对这种『问答』场景,我们提出了一套新的方法论和杀手级模型,从而让AI更懂你,远离送命题~ 2. 背景 在日常生活中,我们会经常询问我们的语音助手 (小微/Siri/Alexa/小爱/小度 等等)各种各样的问题

NLP中各种各样的编码器

主宰稳场 提交于 2020-03-21 01:26:12
3 月,跳不动了?>>> 作者:Pratik Bhavsar 编译:ronghuaiyang (AI公园) 原文链接: NLP中各种各样的编码器 ​ mp.weixin.qq.com 掌握文本数据的特征工程。 对文本进行编码理解语言的核心。如果我们知道如何用小向量表示单词、句子和段落,那么我们所有的问题都解决了! 在压缩向量中使用一个泛化模型来对文本进行语义表示是NLP的终极目标 👻 对文本进行编码是什么意思? 当我们将一个可变长度的文本编码成一个固定长度的向量时,我们实际上是在做特征工程。如果我们使用语言模型或嵌入模块,我们也在进行降维。 正如我在之前的一篇关于迁移学习的文章中所讨论的,有两种建模方法 — 微调和特征提取。在这篇文章中,我将讨论用深度学习来编码文本(特征提取)的各种方法,这些方法可以用于后续的任务。你可以在这篇文章中看到特征提取方法的优点。 假设你有这样一句话:“我喜欢去海滩旅行。”你正在做一个分类项目。如果你的词汇量很大,就很难训练分类器。当你使用TF-IDF得到每个单词的稀疏向量时,就会发生这种情况。 使用像GloVe这样的嵌入工具,你可以得到一个密集的100维的向量。但是像GloVe这样的模型的问题是它不能处理OOV(词汇表之外的)单词,也不能处理一词多义 —— 根据上下文,一个单词有很多可能的含义。 因此,最好的方法是使用像ELMo这样的模型或使用USE

飞桨工具组件简介——ERNIE

冷暖自知 提交于 2020-03-12 11:53:21
ERNIE 2.0: A Continual Pre-training Framework for Language Understanding Pre-Training 任务 Word-aware Tasks Knowledge Masking Task Capitalization Prediction Task Token-Document Relation Prediction Task Structure-aware Tasks Sentence Reordering Task Sentence Distance Task Semantic-aware Tasks Discourse Relation Task IR Relevance Task ERNIE 1.0: E nhanced R epresentation through k N owledge I nt E gration 对比 ERNIE 1.0 和 ERNIE 2.0 效果验证 中文效果验证 英文效果验证 ERNIE tiny 技术交流 使用 arxiv: ERNIE 2.0: A Continual Pre-training Framework for Language Understanding , link ERNIE 2.0 是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务

《Head First Java(第二版)》中文版 分享下载

限于喜欢 提交于 2020-02-26 21:34:10
书籍信息 书名:《Head First Java(第二版)》中文版 作者: Kathy Sierra,Bert Bates 著 / 杨尊一 编译 张然等 改编 豆瓣评分:8.7分 内容简介 《Head First Java》是本完整的面向对象(object-oriented,OO)程序设计和Java的学习指导。此书是根据学习理论所设计的,让你可以从学习程序语言的基础开始一直到包括线程、网络与分布式程序等项目。最重要的,你会学会如何像个面向对象开发者一样去思考。 而且不只是读死书,你还会玩游戏、拼图、解谜题以及以意想不到的方式与Java交互。在这些活动中,你会写出一堆真正的Java程序,包括了一个船舰炮战游戏和一个网络聊天程序。 Head First系列的图文并茂学习方式能让你快速地在脑海中掌握住知识。敞开心胸准备好学习这些关键性的主题: Java程序语言 面向对象程序开发 Swing图形化接口 使用Java API函数库 编写、测试与布署应用程序 处理异常 多线程 网络程序设计 集合与泛型 如果你想要看“一本正经”的书,去找其他的。但如果你真地想要好好地学习Java,你会需要《Head First Java》。这本书可是Amazon编辑推荐的十大好书之一! 本书中的每条规则都以简短、独立的小文章形式出现,并通过例子代码加以进一步说明。本书内容全面,结构清晰,讲解详细