BERT

NLP中的自监督表示学习,全是动图,很过瘾的

江枫思渺然 提交于 2020-07-29 10:09:49
作者:amitness 编译:ronghuaiyang 其实在自监督学习的概念提出之前,NLP中就已经运用到了这一思想。 虽然计算机视觉在自监督学习方面取得了惊人的进展,但在很长一段时间内,自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在,甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文推广了这一模式,在许多问题上应用这些自监督的方法,这个领域得到了迅速的发展。 这些自监督的方法的核心是一个叫做 “ pretext task ” 的框架,它允许我们使用数据本身来生成标签,并使用监督的方法来解决非监督的问题。这些也被称为“ auxiliary task ”或“ pre-training task “。通过执行此任务获得的表示可以用作我们的下游监督任务的起点。 在这篇文章中,我将概述研究人员在没有明确的数据标注的情况下从文本语料库中学习表示的各种pretext tasks。本文的重点是任务的制定,而不是实现它们的架构。 自监督的方案 1. 预测中心词 在这个公式中,我们取一定窗口大小的一小块文本,我们的目标是根据周围的单词预测中心单词。 例如,在下面的图中,我们有一个大小为1的窗口,因此我们在中间单词的两边各有一个单词。使用这些相邻的词,我们需要预测中心词。 这个方案已经在著名的Word2Vec论文的“ Continuous Bag of

软件漏洞数据处理及分类方法总结

感情迁移 提交于 2020-07-28 18:48:30
目录 一、前言 二、软件漏洞数据分析 三、软件漏洞分类实验流程 四、软件漏洞文本预处理 五、软件漏洞文本表示方法 六、软件漏洞分类模型构建 七、软件漏洞分类实验结果与分析 八、总结 一、前言 本人基于网络空间安全研究方向做过入侵检测实验、软件缺陷分类实验、软件安全漏洞分类管理实验等,网络安全方向相关数据集可参看个人总结: 网络安全相关数据集介绍与下载 ( 具体可参看个人博客: Asia-Lee )。 本文的主要目的是为了构造一个有效的软件漏洞分类模型,该模型能有效提高软件漏洞分类管理的效率和软件漏洞分类的准确率,减少系统被攻击和破坏的风险,降低漏洞修复的成本。本文主要使用深度学习相关方法构造漏洞分类模型进行实验调研。 二、软件漏洞数据分析 实验所用数据为美国国家计算机 通用漏洞数据库(National Vulnerability Database,NVD )和 中国国家信息安全漏洞库(China National Vulnerability Database of Information Security,CNNVD) ,主要以 NVD漏洞数据库 中的漏洞数据为基准数据,本次实验使用的是从2002年到2019年5月份的NVD漏洞数据。 NVD漏洞数据库收录的漏洞数据具有唯一性,规范性,兼容性和统一性,采用国际编码语法规范,因此,可以作为软件漏洞分类研究的基准数据集

独家解析英伟达最新GPU-A100对AI行业带来的影响

試著忘記壹切 提交于 2020-07-28 09:56:14
最近英伟达发布了最新GPU-A100,当我们先后经历了K系列、M系列、P系列、V系列之后,这一次的A系列发布又会带来哪些影响,未来行业的走势如何,新入行的同学究竟选择哪个领域入门比较合适。今天我将从3个方向为大家一一剖析, 计算力变强了,会给行业带来什么影响 计算力变便宜了,会给行业带来什么影响 英伟达的野心在哪里,对行业有什么影响 1 计算力变强的影响 这次新的GPU在算力方面变强的幅度是比较夸张的,根据官方数据显示,在Bert模型的场景下,训练和预测都有大幅度的提升。 同时新的机器搭载了三星的40G的超大HBM2显存。这些信号意味着什么呢?意味着计算框架的算力层面价值在弱化。过去提到TensorFlow、PyTorch,大家比的是哪种框架在分布式场景下更快,因为当模型的训练量大到单机很难在短时间内收敛,因为当模型大小大到单机内存没法承载之后,只能依赖分布式的方案去解决问题。 今天,A100即使在单机情况下也提供了可能过去可能2到5台机器的分布式能力。也就是说,今天单机的能力变强了。在计算框架层面,未来更多地需要从计算力优化的角度转向如何提升用户体验,提供更简单的开发接口。 所以,未来深度学习的开发会变得更简单,得益于框架的向用户体验转型。另外,框架级别的优化工作以及各种模型量化工作,将只在部分超大规模的应用场景下有意义。 如果把AI拆分成三层,最下方是计算力为代表的芯片GPU

六种用于文本分类的开源预训练模型

拟墨画扇 提交于 2020-07-28 09:07:13
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍 我们正站在语言和机器的交汇处,这个话题我很感兴趣。机器能像莎士比亚一样写作吗?机器能提高我自己的写作能力吗?机器人能解释一句讽刺的话吗? 我肯定你以前问过这些问题。自然语言处理(NLP)也致力于回答这些问题,我必须说,在这个领域已经进行了突破性的研究,促使弥合人类和机器之间的鸿沟。 文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词,或者它能够在客户的评论中检测到客户对产品的满意程度,我们可以将这种理解用于其他高级NLP任务。 这就是我们在文本分类方面看到很多研究的本质。迁移学习的出现可能促进加速研究。我们现在可以使用构建在一个巨大的数据集上的预训练的模型,并进行优化,以在另一个数据集上实现其他任务。 迁移学习和预训练模型有两大优势: 它降低了每次训练一个新的深度学习模型的成本 这些数据集符合行业公认的标准,因此预训练模型已经在质量方面得到了审查 你可以理解为什么经过预训练的模特会大受欢迎。我们已经看到像谷歌的BERT和OpenAI的GPT-2这样的模型真的很厉害。在这里中,我将介绍6种最先进的文本分类预训练模型。 我们将介绍的预训练模型: XLNet ERNIE Text-to-Text Transfer Transformer(T5) BPT NABoE

用Siamese和Dual BERT来做多源文本分类

旧街凉风 提交于 2020-07-28 07:25:40
作者:Marco Cerliani 编译:ronghuaiyang 正文共:2062 字 10 图 预计阅读时间:6 分钟 原文链接: 用Siamese和Dual BERT来做多源文本分类 ​ mp.weixin.qq.com 使用不同的方式来使用BERT模型。 在NLP中不断的研究产生了各种各样的预训练模型。对于各种任务,例如文本分类、无监督主题建模和问题回答等,不断的在刷新业界最佳。其中,最伟大的发现之一是在神经网络结构中采用了注意力机制。这种技术是所有称为 transformers 的网络的基础。他们应用注意力机制来提取关于给定单词上下文的信息,然后将其编码到一个学习到的向量中。 作为数据科学家,我们可以调用很多transformers架构,并使用它们对我们的任务进行预测或微调。在这篇文章中,我们喜欢读经典的BERT,但是同样的推理也适用于其他所有的transformer结构。 我们使用了siamese结构,这是一个双路BERT ,用于多文本输入的分类。 数据 我们从Kaggle上收集数据集。新闻类别数据集: https://www. kaggle.com/rmisra/news- category-dataset 包含从HuffPost上获得的2012年至2018年的约20万条新闻标题。我们需要根据两种不同的文本来源对新闻文章进行分类:标题和简介

ACL 2020 | 基于机器阅读理解框架的命名实体识别方法

限于喜欢 提交于 2020-07-28 05:17:08
论文标题: A Unified MRC Framework for Named Entity Recognition 论文作者: Xiaoya Li, Jingrong Feng, Jiwei Li 论文链接: https://arxiv.org/pdf/1910.11476.pdf 本文提出 使用基于 机器阅读理解 (Machine Reading Comprehension, MRC) 的框架 代替序列标注模型 (sequence labeling) 统一 处理嵌套与非嵌套命名实体识别问题 。 该方法解决了序列标注模型无法处理嵌套命名实体识别的缺陷, 在8个中英数据集(OntoNotes4.0/5.0、ACE2004/2005、GENIA、KBP17、MSRA、CoNLL)上取得接近或超过当前最佳效果的表现 ,尤其是在嵌套任务上大幅超越之前最优结果。 概述 近年来关于命名实体识别(NER)的研究非常多,其中大多数都是针对的“非嵌套型”的NER(Flat NER),然而在实际场景中,“嵌套型”的NER(Nested NER)占了相当的比例。 如下图所示的两个例子所示。如此一来,以往针对Flat NER的模型就不对Nested NER起效,这是因为它们大多数是序列标注模型,这就没有办法直接迁移到Nested NER上。 另一方面,过去对Nested

机器学习PAI 2020-5 月刊

感情迁移 提交于 2020-07-27 22:08:45
【功能发布】 【新功能】Studio上线PAI-TF CPU版本 介绍:客户可以使用PAI-TF在CPU环境下开发并运行,以前只支持GPU版本。 适用客户:深度学习相关客户 文档链接: https://help.aliyun.com/document_detail/154184.html 【新功能】Studio上线Bert-Embedding 介绍:客户可以基于Bert算法生成文本向量,可以应用于文本分类等场景 适用客户:文本分析相关需求客户 文档链接: https://help.aliyun.com/document_detail/42747.html 【新功能】Studio上线GraphSage 介绍:图神经网络是目前深度学习热点的发展方向,PAI团队在前不久开源了graph-learn框架( https://github.com/alibaba/g 来源: oschina 链接: https://my.oschina.net/u/4309507/blog/4310524

六种用于文本分类的开源预训练模型

假如想象 提交于 2020-07-27 11:32:23
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍 我们正站在语言和机器的交汇处,这个话题我很感兴趣。机器能像莎士比亚一样写作吗?机器能提高我自己的写作能力吗?机器人能解释一句讽刺的话吗? 我肯定你以前问过这些问题。自然语言处理(NLP)也致力于回答这些问题,我必须说,在这个领域已经进行了突破性的研究,促使弥合人类和机器之间的鸿沟。 文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词,或者它能够在客户的评论中检测到客户对产品的满意程度,我们可以将这种理解用于其他高级NLP任务。 这就是我们在文本分类方面看到很多研究的本质。迁移学习的出现可能促进加速研究。我们现在可以使用构建在一个巨大的数据集上的预训练的模型,并进行优化,以在另一个数据集上实现其他任务。 迁移学习和预训练模型有两大优势: 它降低了每次训练一个新的深度学习模型的成本 这些数据集符合行业公认的标准,因此预训练模型已经在质量方面得到了审查 你可以理解为什么经过预训练的模特会大受欢迎。我们已经看到像谷歌的BERT和OpenAI的GPT-2这样的模型真的很厉害。在这里中,我将介绍6种最先进的文本分类预训练模型。 我们将介绍的预训练模型: XLNet ERNIE Text-to-Text Transfer Transformer(T5) BPT NABoE

搜索关键词加个「VS」有何用?学下棋、追剧都不在话下

試著忘記壹切 提交于 2020-07-25 00:17:24
   在使用搜索引擎的时候,引号、星号、加减号等都能帮我们更快地搜到自己想要的结果,那你有没有试过在搜索词后边加个「VS」呢?近日,一位 medium 博主就介绍了「搜索词」+「VS」的妙用。利用该技巧创建的 ego graph 能帮你学习下棋、购买宠物,甚至是追剧。      你是否尝试过在搜索引擎里输入一个关键词,然后再输入「vs」,看看它能给你自动匹配出什么东西?      事实证明这还挺好玩的,而且还算得上是一种实用技巧,能帮你快速找到你感兴趣的事物的其它对应选项或替代选项。   不仅如此,如果你想要了解一项技术、一款产品或一个概念,这个技巧也能为你提供很有效的帮助。原因有三点:   学习新事物的最好方法是了解它与你已经很熟悉的事物的异同点。当在搜索引擎返回的列表中看到你熟悉的事物时,你心中立马就会浮现出「原来如此」感觉。   操作很简单,几秒钟就搞定了。   在你输入「vs」之后,搜索引擎会认为你想对「vs」前后的事物进行直接比较。你也可以使用「or」,但这样表达的态度远不如 vs 坚决,此时谷歌返回的可选项就可能脱离我们想要的范围,如下所示:      「bert or」返回的结果大都和儿童节目《芝麻街》有关,而「bert vs」返回的结果就是和 BERT 模型相关的了。   在这一观察的基础上,如果将谷歌自动填充的关键词再继续使用「vs」来进一步执行「vs

(2020.6.22)SIREN:用sin作为NN的激活函数

本小妞迷上赌 提交于 2020-07-24 23:10:39
今天读到了一篇论文,感觉很厉害:2006.09661,这篇文章提出了用sine作为激活函数,可以让NN的拟合能力更强,而且具有一些额外的很厉害的性质。 尝试不同的激活函数其实很多人做过,估计使用sin也很多人尝试过,但是估计效果不好就放弃了,但是这里作者提出了只需要用特定的初始化方法,效果飞云之上。 这种方式得到的一个很厉害的性质就是SIREN的导数还是SIREN。所以就可以不用拟合数据本身,拟合数据的导数就能拟合数据。 这里其实让我联想到BERT里面的position embedding,就用到了sin函数,人生真是奇妙,难道BERT效果拔群,关键是采用了周期的位置向量? 来源: oschina 链接: https://my.oschina.net/u/4409653/blog/4325617