自然语言处理

谷歌开源NLP模型可视化工具LIT,模型训练不再「黑箱」

好久不见. 提交于 2020-10-11 03:59:15
深度学习模型的训练就像是「黑箱操作」,知道输入是什么、输出是什么,但中间过程就像个黑匣子,这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具,能够帮助研究人员更好地理解模型行为,这应该是件非常棒的事。 近日,Google 研究人员发布了一款语言可解释性工具 (Language Interpretability Tool, LIT),这是一个开源平台,用于可视化和理解自然语言处理模型。 论文地址:https://arxiv.org/pdf/2008.05122.pdf 项目地址:https://github.com/PAIR-code/lit LIT 重点关注模型行为的核心问题,包括:为什么模型做出这样的预测?什么时候性能不佳?在输入变化可控的情况下会发生什么?LIT 将局部解释、聚合分析和反事实生成集成到一个流线型的、基于浏览器的界面中,以实现快速探索和错误分析。 该研究支持多种自然语言处理任务,包括探索情感分析的反事实、度量共指系统中的性别偏见,以及探索文本生成中的局部行为。 此外 LIT 还支持多种模型,包括分类、seq2seq 和结构化预测模型。并且它具备高度可扩展性,可通过声明式、框架无关的 API 进行扩展。 相关 demo,参见视频: 00:00/00:00倍速 可以针对新颖的工作流程进行重新配置,并且这些组件是独立的,可移植的,且易于实现。

周明:预训练模型在多语言、多模态任务的进展

旧街凉风 提交于 2020-10-10 14:31:54
     作者 | 周明   编辑 | 陈彩娴   8月29日至30日,由中国科学技术协会、中国科学院、南京市人民政府为指导单位,中国人工智能学会、南京市建邺区人民政府、江苏省科学技术协会主办的主题为“智周万物”的2020年中国人工智能大会(CCAI 2020)在江苏南京新加坡·南京生态科技岛举办。在大会上,微软亚洲研究院副院长、国际计算语言学会(ACL)前任主席周明做了主题为《预训练模型在多语言、多模态任务的进展》的特邀报告。   以下是周明老师的演讲实录:    1    预训练模型助力NLP   自然语言处理(NLP),目的是使得计算机具备人类的听、说、读、写、译、问、答、搜索、摘要、对话和聊天等能力,并可利用知识和常识进行推理和决策,并支持客服、诊断、法律、教学等场景。自然语言理解,被认为是AI皇冠上的明珠。一旦有突破,则会大幅度推动AI在很多重要场景落地。   过去这五年,对自然语言是一个难忘的五年,它的一个标志就是神经网络全面引入到了自然语言理解。从大规模的语言数据到强有力的算力,加上深度学习,把整个自然语言带到一个新的阶段。   今天我要讲的预训练模型,它使自然语言处理由原来的手工调参、依靠ML专家的阶段,进入到可以大规模、可复制的大工业施展的阶段,令我们这个领域的人感到非常振奋。而且预训练模型从单语言、扩展到多语言、多模态任务。一路锐气正盛,所向披靡。   那么

EMNLP2020录取率出炉,main conference+Findings共37.9%

喜欢而已 提交于 2020-10-10 02:07:25
其中主会22.4%,Findings15.5%,总体录取率为37.9%。 其中对于今年的新事物Findings,从官网描述来看,总体还是评价比较高的,甚至拿出了往年的相关顶会录取率(30-40%),也引用了Noah Smith的话: " I'm optimistic about "Findings of EMNLP" and other similar plans to add publication capacity to NLP conferences. Reputation and prestige are social constructs. In NLP, we are constructing them. What it "means" to have a paper published in EMNLP vs. Findings is something we get to decide. Findings will be a respected venue if strong, citation-worthy work is published there. Good, useful, informative work has been getting rejected under the old model, and that slows everyone

《评人工智能如何走向新阶段》后记(再续27)

落花浮王杯 提交于 2020-10-10 00:29:37
439, 彩虹一号无人机实现人类永不落地的追求 日媒:中国亮出杀手锏 世界各国一直在研究提高飞机的续航能力 国内研制的彩虹一号无人机采用人工智能和其他高新技术,飞行高度30000米,并终于研制成功实现人类永不落地的追求。 440, 日本开发出光刻机亷价可靠的极紫外射线EUV光源 东京工业大学KeijiNagai教授率领的研究团队(并与都柏林大学学院科学家合作)最近研发了一种极低密度的锡“气泡”,使得极紫外射线的产生变得可靠且便宜。 以往采用高强度激光器来产生EUⅤ光源,但对这些激光器而言,要保持可产生EUⅤ范围内光的目标密度的控制是有挑战性的。而今天他们研发的锡塗层微胶囊“气泡”技术,不但可保持高效、可扩展和低成本,而且是一种可高度挖制的、稳定的低密度结构。测试的结果产生了13.5nm的EUⅤ光(并与传统的EUⅤ光源兼容)。 这项研究成果,使得攻克光刻机不必僵持在整体攻关上,而找到将整体分解为各局部,将各局部关键技术各个击破的途径。 441, 大脑控制的真实感假肢问世,患者无需训练即可使用 一个欧美科学家团队报告说,有史以来最先进的仿生假肢取得成功 一个欧美科学家团队(由查尔黙斯理工大学、Sahlgrenska大学医院、哥德堡大学、IntegrumAB、维也纳医科大学和麻省理工学院研究人员组成)研究一种新的仿生假肢传感系统:将该系统整合到伤残患者的神经中

从自监督学习主流方法、最新工作进展,看未来前景研究方向

时间秒杀一切 提交于 2020-10-10 00:28:37
来源: 机器学习算法与自然语言处理 本文约 6000字 ,建议阅读 10分钟。 找到合适的辅助任务,对于自监督学习是最需要解决的问题。 本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。 与此同时,文中也穿插着几大主流方法的最新工作进展,现在正在探索自监督学习未来前景研究方向的同学,也不妨借鉴一二,说不定能找到灵感哦~ 学习的范式 我们首先来回顾下机器学习中两种基本的学习范式,如图所示,一种是监督学习,一种是无监督学习。 监督学习与无监督学习[1] 监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播,通过不断的学习,最终可以获得识别新样本的能力。而无监督学习不依赖任何标签值,通过对数据内在特征的挖掘,找到样本间的关系,比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。 无监督学习中被广泛采用的方式是自动编码器(autoencoder): 深度自编码器[6] 编码器将输入的样本映射到隐层向量,解码器将这个隐层向量映射回样本空间。我们期待网络的输入和输出可以保持一致(理想情况,无损重构),同时隐层向量的维度大大小于输入样本的维度,以此达到了降维的目的,利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。 对于如何学习隐层向量的研究

深入理解Dirichlet过程

﹥>﹥吖頭↗ 提交于 2020-10-09 15:18:57
Dirichlet分布(Dirichelt Distribution)和Dirichlet过程 (Dirichlet Process)广泛应用于信息检索、自然语言处理等领域,是理解主题模型的重要一步。而且它作为一种非参数模型(non-paramatric model),和参数模型一样有着越来越广泛的应用。 文本提供了一种对Dirichlet 过程的理解。本文适合了解高斯过程,对Dirichlet过程有一定了解,但又有些困惑的同学。希望读完这篇文章能进一步提升对Dirichlet的理解。 随机过程 粗略地说,随机过程是概率分布的扩展 。我们一般讲概率分布,是有限维的随机变量的概率分布,而随机过程所研究的对象是无限维的。因此,也把随机过程所研究的对象称作 随机函数 。 随机变量之于概率分布,就像随机函数之于随机过程 。 机器学习领域常见的随机过程有:Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等。 高斯过程 理解Dirichlet过程,可以类比高斯过程。高斯过程(GP)是定义在 函数上的概率分布 。 来源: oschina 链接: https://my.oschina.net/u/4295105/blog/4665412

CoSDA-ML:一种只需利用字典资源提高跨语言zero-shot任务性能的方法

拈花ヽ惹草 提交于 2020-10-08 09:05:05
背景 跨语言学习(Cross-Lingual)是自然语言处理领域研究的热点,其可以借助从资源丰富(high resource)语言中学习到的知识,帮助稀缺资源(low resource)语言更好的完成相关任务,为不同语言之间的知识迁移提供了桥梁与枢纽。刚刚结束的EMNLP2020也着重强调不允许以研究非英语语言作为拒稿理由(“Invalid bases for rejecting a Paper: The Paper’s work is on a language other than English. We care about NLP for any language),表明了资源稀缺语言研究的重要性。随着预训练模型(Pre-trained Language Model, PLMs)席卷整个自然语言处理领域,跨语言学习也借助PLMs的东风,得到了快速的发展,诸如mBERT,XLM等跨语言预训练模型不断涌现,极大的提升了低资源语言的任务性能。然而,上述mBERT在取得卓越进展的同时,也存在一定缺陷:尽管mBERT模型被称之为多语言BERT,但是其在训练时,每次输入依旧为单语数据,即对于单个句子来说仍是单语言语境,如图1所示。除了借助共同的词语(实际为subword)来对齐多种语言表示之外,没有其他显式的多语言对齐信号,这一缺陷严重阻碍了mBERT模型的性能。 图1

NLP基础之爬虫数据入库Mysql

旧城冷巷雨未停 提交于 2020-10-08 05:28:47
LP基础之爬虫数据入库Mysql 爬取瓜子二手车网站的大众车(任何品牌车辆)的第一页的报价信息,把结果存入数据库,爬取信息包括 车名 公里数 年份和价格 。 目录 爬虫入库代码 运行结果 爬虫入库代码 # -*- coding: utf-8 -*- import pymysql from selenium import webdriver from selenium.webdriver.common.keys import Keys from time import sleep import os,sys curPath = os.path.abspath (( os.path.dirname ( __file__ )) 来源: oschina 链接: https://my.oschina.net/u/4397718/blog/4438481

智能标注原理揭秘,一文读懂人工智能如何解决标注难题

安稳与你 提交于 2020-10-08 05:27:44
10条工程师职场小技巧!>>> 无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如 ImageNet,COCO 等。 对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制 AI 模型应用,以保证其能够更好地应用在业务中。因此, 业务场景数据的采集和标注也是在实际 AI 模型开发过程中必不可少的重要环节。 数据标注的质量和规模通常是提升 AI 模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。 图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架 主动学习(ActiveLearning,AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。 其中,算法负责挑选对训练 AI 模型价值更高的样本,而用户则标注那些挑选出来的样本

重磅!2020北京智源大会完整日程公布,4天19场高端AI论坛邀你参加

折月煮酒 提交于 2020-10-07 06:59:42
   与6位图灵奖得主和100多位专家    共同探讨人工智能的下一个十年   长按图片或点击阅读原文,内行盛会,首次免费注册:https://2020.baai.ac.cn    北京智源大会倒计时:6天    2020年6月21-24日 , 第二届北京智源大会 ( 官网:https://2020.baai.ac.cn )将带领我们回顾过去,展望未来,深入系统探讨「 人工智能的下一个十年 」。   本次大会群英荟萃,嘉宾不仅包括6位来自美国、加拿大和法国的 图灵奖得主 : Geoffrey Hinton 、 Alan Kay 、 Judea Pearl 、 Manuel Blum 、 Joseph Sifakis 、 John Hopcroft (智源学术顾问委员会委员),更有 上百位人工智能领袖 。居高屋之上以建瓴水——人工智能各领域顶尖学者将围炉而坐,共谈国际人工智能发展前沿问题。    大会日程共有4天,涵盖19个分论坛:    6月21日: 开幕式和全体大会,人工智能的数理基础专题论坛,智能体系架构与芯片专题论坛,AI科技女性专题论坛,AI对战《星际争霸》职业选手挑战赛,晚间全体大会;    6月22日: 全体大会,语音和自然语言处理专题论坛,认知神经基础专题论坛,机器感知专题论坛,人工智能伦理、治理与可持续发展专题论坛,晚间全体大会;    6月23日: