自然语言处理

论文速览|更好的预训练句子编码器(微软EMNLP 2020)

点点圈 提交于 2021-01-31 23:23:08
Title: Cross-Thought for Sentence Encoder Pre-training Paper: https://arxiv.org/abs/2010.03652 GitHub: https://github.com/shuohangwang/Cross-Thought 来源: EMNLP 2020 机构: Microsoft 这篇论文提出了 Cross-Thought,一个预训练句子编码器,为大规模NLP任务提供可复用的句子embeddings。 和直接使用整句的原始信息不同的是,该模型在大量短序列中训练基于Transformer的序列编码器,这使得模型可以自动选择最有用的信息来预测被遮盖的单词。 在问答和文本蕴含任务中,该预训练编码器表现得更出色,并在HotpotQA上通过提高中间信息检索性能而获得SOTA。 通过进一步的微调,可以在众多的NLP任务中 击败 几个有力的baselines。 <<< 左右滑动见更多 >>> <<< 左右滑动见更多 >>> <<< 左右滑动见更多 >>> 本文分享自微信公众号 - 图网络与机器学习(Graph-AI)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源: oschina 链接: https://my.oschina

使用谷歌Colab Notebooks,这6个小技巧你需要掌握

允我心安 提交于 2021-01-31 11:11:27
选自Medium 作者:Iden W.机器之心编译 编辑:陈萍、杜伟 转载自: 机器之心 原文链接: 使用谷歌Colab Notebooks,这6个小技巧你需要掌握 ​ mp.weixin.qq.com 切换暗黑模式、读取 CSV 文件… 这些非常实用的小技巧为开发者使用谷歌 Colab Notebooks 提供了便利。 Google Colab 给广大的 AI 爱好者和开发者提供了免费的 GPU,他们可以在上面轻松地跑 Tensorflow、PyTorch 等深度学习框架。特别地,Colab 实时 Notebooks 在数据共享方面为广大开发者提供了便利,通过链接即可与其他的开发者共享文件。 在本文中,数据科学家 Iden W. 为读者详细地介绍了使用 Google Colab Notebooks 的小技巧,主要包括以下几个方面: 切换暗黑模式 读取 CSV 文件 栈溢出的快捷方式 启动内核 提交至 GitHub 存储库并共享 分享 Google Colab Notebooks 切换暗黑模式 如果开发者想使用 Google Colab 的暗黑模式,请点击「Tools」选项卡,然后按照下图所示的步骤进行设置。 在「settings」中,你可以单击「Site」菜单,然后选择「dark」功能,单击保存。操作完成后即可切换暗黑模式。 读取 CSV 文件 从 Google Drive

linux启动mysql

南笙酒味 提交于 2021-01-31 01:40:34
一、linux下查看mysql服务的两种方式: 方式一: [root@localhost bin]ps -ef|grep mysql 方式二: [root@localhost bin]netstat -nlp 二、linux下启动mysql服务的两种方式: 命令行方式: [root@localhost bin]cd /usr/bin [root@localhost bin]./mysqld_safe & 服务方式: 1 [root@localhost ~]service mysql start 2 如果服务在启动状态,直接重启服务用以下命令: 3 [root@localhost ~]service mysql restart 三、linux下关闭mysql服务的两种方式: 命令行方式: [root@localhost ~]mysqladmin -u root shutdown 服务方式: [root@localhost ~]service mysql stop 以上就是 良许教程网 为各位朋友分享的Linux相关知识。 来源: oschina 链接: https://my.oschina.net/u/4937611/blog/4922374

两种端到端通用目标检测方法

自古美人都是妖i 提交于 2021-01-30 12:35:59
摘要: 本文介绍两种端到端训练通用目标检测算法--DETR和DeFCN。 通用目标检测作为计算机视觉中一个基础的任务,对着图像理解、信息提取有着极为重要的意义。对于该任务目前已经发展出了许多方法,如基于全卷积的单阶段方法DenseBox,YOLO,SSD, RetinaNet和CenterNet等,以及更加复杂的多阶段方法RCNN, Fast RCNN, Faster RCNN和 Cascade RCNN等。根据目标检测任务的定义,这些方法需要对图像中出现的目标物体进行定位和分类,为了确保目标的召回率,结合卷积神经网络的采用的滑动窗口预测的特性,上述的方法均使用卷积进行密集的候选区提取和目标预测,因此对于输入的每个目标,往往有多个网络预测值相对应。 这些方法通常使用非极大值抑制方法(NMS)对重复的预测结果进行过滤,从而得到最终预测结果。不同于卷积操作,NMS过程不可导,模型无法对去重的过程进行优化,最终的检测检测模型也由于该操作的存在不能做到完全端到端。 通用目标检测近期的一些进展中,一些方法实现了端到端训练,训练和推理均无需NMS操作。如基于Transformer的DETR[1]和全卷积DeFCN[2], 两种方法采用了较为不同的实现路线,分别具有不同的优势和潜力,下面对这两种方法进行介绍。 DETR Transformer在自然语言处理任务中取得了巨大的成功

陈丹琦、杨笛一、李宏毅荣获Salesforce AI研究基金,每人5万美元!

微笑、不失礼 提交于 2021-01-30 11:53:18
作者:陈大鑫 转载自:AI科技评论 原文链接: 陈丹琦、杨笛一、李宏毅荣获Salesforce AI研究基金,每人5万美元! ​ mp.weixin.qq.com 昨日,Salesforce研究院宣布了2020年度Salesforce人工智能研究基金的获奖者。本年度一共有六位AI领域的学者入选,其中就包括大家比较熟知的 陈丹琦 和 杨笛一 。 Salesforce研究院将为每一位获奖者提供5万美元的资助,以推动他们的研究工作来帮助塑造人工智能的未来。 据了解这是Salesforce第三年提供这项研究基金,本次申请人数破了纪录。一共有来自30多个国家的180多个高质量学进行申请。在这轮申请中,Salesforce研究院最终根据申请提案质量、idea的新颖性以及与Salesforce提出的研究课题的相关性,授予6位AI学者研究基金资助。 以下对陈丹琦和杨笛一二人做简单介绍。 陈丹琦 陈丹琦目前为普林斯顿大学计算机系助理教授。陈丹琦在高中期间参加第 20 届国际信息学奥林匹克竞赛 (IOI2008) 获得金牌被保送到清华姚班,后直博到斯坦福大学。 在斯坦福期间,陈丹琦发表的论文《A Fast and Accurate Dependency Parser using Neural Networks》堪称 深度学习依存分析方法的“开山之作 ”,她和曼宁教授提出的方法在保持精度的前提下

Hinton最新访谈:无监督胶囊网络、对比学习以及大脑中的反向传播

走远了吗. 提交于 2021-01-30 11:53:00
来源 | 数据实战派 转载自:AI科技评论 原文链接: Hinton最新访谈:无监督胶囊网络、对比学习以及大脑中的反向传播 ​ mp.weixin.qq.com Geoff Hinton 是公认的深度学习先驱。2018 年,他与 Yoshua Bengio、Yann LeCun 共同获得了图灵奖。而在这之前的一年,他提出了一个想法 —— 胶囊网络(Capsule Network)。这是卷积神经网络的替代方案,它考虑了物体在 3D 世界中的姿势,尝试弥补当今计算机视觉模型学习能力上的不足,比如学会从不同的角度来识别同一个物体。 从那之后, Hinton 在学术界的公开活动有所沉寂。直到2020 年 12 月,在 NeurIPS 上,他的团队介绍了一项堆叠式胶囊自动编码器(stacked capsule autoencoders)相关的研究成果。更早之前 2 月的 AAAI 会议上,他谈到,胶囊网络是无监督学习的关键。4 月,Hinton 又重新提出了将反向传播作为人类大脑中的一种学习功能,并介绍了近似反向传播的算法 ——用活动差异表示神经梯度(neural gradient representation by activity differences,简称 NGRAD)。 近日,在播客节目 Eye on AI 中,受到播客主理人、纽约时报资深记者 Craig Smith 的邀请

我们为什么需要条件随机场CRF?

和自甴很熟 提交于 2021-01-30 09:56:21
点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作 者: Prateek Joshi 编译: ronghuaiyang 导读 昨天给大家介绍了CRF的基本概念,今天我们聊一聊为什么需要这么个东西。 这是一个分为两部分的讨论。在这篇博文中,我们将讨论条件随机场的需求。在下一篇文章中,我们将讨论它们到底是什么以及如何使用它们。在计算机视觉、生物信息学、计算语言学和语音识别等诸多领域,都出现了为一组观测序列分配标签的任务。例如,考虑自然语言处理任务,即在句子中使用相应的词性标记标记单词。在这个任务中,每个单词都有一个标记,表示其适当的词性,从而产生带标注的文本。再举一个例子,考虑根据所观察到的行为给一个视频贴上一个人的心理状态标签的任务。你必须分析用户的面部表情,确定用户是否高兴、生气、悲伤等等。我们经常希望预测大量相互依赖的变量以及其他观察到的变量。如何实现这些任务?我们应该使用什么模型? 为什么要用条件随机场? 在许多应用中,我们希望能够预测相互依赖的多个变量。例如,一个运动队的表现取决于该队每个队员的健康状况。每个成员的健康可能会受到团队旅行计划的影响。比赛的结果可能会影响全队的士气。反过来,士气可能会影响健康。正如你所看到的,有多个变量错综复杂地相互依赖。条件随机场(CRFs)对这些问题的建模非常有用。与此类似的应用有很多,比如对图像的区域进行分类

不要再用arxiv链接了!为了让论文引用更规范,上交毕业生、南加州大学华人博士创建了一个小工具

£可爱£侵袭症+ 提交于 2021-01-30 09:14:57
只需两步,将文献的 arXiv 信息转换为正式来源信息。 机器之心报道,作者:魔王。 伴随着预印本平台 arXiv 的广泛使用,越来越多的研究者喜欢在写论文参考文献时直接使用 arXiv 信息。这看似非常方便,但也存在问题:这篇 arXiv 论文是否在 ACL、EMNLP、NAACL、ICLR 或 AAAI 等学术会议上发表过? 没错,在某些情况下,只引用 arXiv 信息显得不那么准确,这种不准确的文献条目甚至可能会违反某些会议的论文提交或 camera-ready 版本提交规则。 如何解决这一问题呢?最近,上交毕业生、南加州大学博士生林禹臣开发了一个简单的 Python 工具——Rebiber,它能够基于 ACL Anthology 和 DBLP 数据库自动解决这一问题。 项目地址: https:// github.com/yuchenlin/re biber 下图展示了 Rebiber 的使用示例: 在该示例中,文章的原始信息来自 Google Scholar,仅包括标题、作者、期刊(arXiv)、年份。而事实上该论文已被 EMNLP 2020 接收,原始信息显然不够准确。 经过 Rebiber 转换后,原始 arXiv 信息被转换为来自正式来源的准确信息,包括标题、作者、年月、出版商、数字对象识别码(doi)、网址等详细内容。 Rebiber 支持的会议包括 ACL

通俗易懂理解——条件随机场CRF

青春壹個敷衍的年華 提交于 2021-01-30 08:30:35
https://mp.weixin.qq.com/s?__biz=MzIyNzE5NjExMA==&mid=2651342812&idx=1&sn=2f74c852200d6868f68a2f05ba561ac8&chksm=f3980a7dc4ef836b764c7ad2bab7c92e696074af43efa2a6be03d686fcec0a4a91a05a116b38&scene=178&cur_album_id=1381650339941761024&exportkey=AaZpj6rbOKQmUg2WIvFt0k0%3D&pass_ticket=lXzBpkoZ2YPJsUPAT3fbhToQqpCP%2BpcjC24v76SUrC6t0zqXhUNtg4RI8W8iC6It&wx_header=0#rd 前言 CRF是一个概率无向图模型,在NLP领域应用广泛,目前大部分的序列标注问题(分词、实体识别等)都会采用Neural Network+CRF作为baseline,本文将会对CRF做一个基本的介绍,并讲解其推导过程。 CRF解决的是什么问题 假设你有许多小明同学一天内不同时段的照片,从小明起床到睡觉各个时间段都有。现在的任务是对这些照片进行分类。比如有的照片是吃饭,那就给它打上吃饭的标签;有的照片是跑步时拍的,那就打上跑步的标签;有的照片是开会时拍的

什么是XLNet,它为什么比BERT效果好?

試著忘記壹切 提交于 2021-01-30 03:09:41
https://zhuanlan.zhihu.com/p/107350079 作者:Xu LIANG 编译:ronghuaiyang (AI公园) 介绍最基本的XLNet的原理,理解XLNet和BERT的直觉上的不同点。 在发布后不到一周,我周围的NLP领域的每个人似乎都在谈论XLNet。 是的,“ 在20个任务上比BERT做得更好 ”确实吸引了我们的眼球。但更重要的是理解它是如何工作的,以及为什么它比BERT表现得更好。所以我写了这个博客来分享我读了这篇文章后的想法。 内容结构如下。 什么是XLNet? XLNet和BERT有什么不同? XLNet是如何工作的? 什么是XLNet? 首先,XLNet是一个类似于bert的模型,而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之, XLNet是一种广义的自回归预训练方法 。 那么,什么是 自回归(AR)语言模型 ? AR语言模型 是利用上下文单词预测下一个单词的一种模型。但是在这里,上下文单词被限制在两个方向,要么向前,要么向后。 GPT和GPT-2都是 AR语言模型 。 AR语言模型的优点是擅长NLP生成任务。因为在生成上下文时,通常是正向的。AR语言模型在这类NLP任务中很自然地工作得很好。 但是AR语言模型有一些缺点,它只能使用前向上下文或后向上下文,这意味着它 不能同时使用前向上下文和后向上下文 。 XLNet