acl2

NLP 事件抽取综述(中)—— 模型篇

梦想与她 提交于 2020-12-25 16:34:53
NewBeeNLP公众号原创出品 公众号专栏作者 @lucy 北航博士在读 · 文本挖掘/事件抽取方向 前情提要 : 超全必读!事件抽取综述(上) 本系列文章主要分享近年来 事件抽取方法总结 ,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分: 定义(Define) 综述(Survey) 模型(Models) 数据集(Datasets) 挑战与展望(Future Research Challenges) Github地址: https://github.com/xiaoqian19940510/Event-Extraction 全文数万字,分几篇整理,后续会同之前的 文本分类综述 一样整理成PDF分享给大家,欢迎持续关注!综述内涉及的所有事件抽取必读论文清单,我们已经提前为大家整理打包好啦,订阅号后台回复 『事件抽取』 即可获取喔~ 另外,最近建立了 『知识图谱』 方向讨论组,快来和大佬们一起精准交流吧,文末自取 事件抽取 2020 1、 Reading the Manual: Event Extraction as Definition Comprehension, EMNLP 2020 [1] 动机 提出一种新颖的事件抽取方法,为模型提供带有漂白语句(实体用通用的方式指代)的模型。漂白语句是指基于注释准则

ACL配置技术文档

喜欢而已 提交于 2020-11-01 11:31:58
ACL配置实验 搭建如下所示环境 一、实现第一个目标:仅允许PC1访问192.168.2.2/24网络(即仅允许PC1访问PC3) 1、配置路由器R1 2、配置PC机 3、分别在PC1和PC2上ping PC3 4、发现只有PC1可以Ping同PC3,PC2不能ping同PC3,实验目的实现 二、禁止192.168.1.0/24网络ping Web服务器 1、配置路由器R1上的acl功能 2、配置服务器 3、用PC1和PC2 ping 服务器,发现不能接通,实验目的达到 4、为什么PC3也不能连通客户端,因为一开始完成目的一时,创建的acl2000是配置在G0/0/2端口上的,所以客户端 的请求不能达到PC3,所以不能接通。 三、仅允许Client1访问WEB服务器的www服务 1、配置路由器R1,此时注意配置acl时有端口号配置,所以需要用高级acl功能 2、配置服务器和客户端,获取文件 搭建如下所示环境 一、实现第一个目标:仅允许PC1访问192.168.2.2/24网络(即仅允许PC1访问PC3) 1、配置路由器R1 2、配置PC机 3、分别在PC1和PC2上ping PC3 4、发现只有PC1可以Ping同PC3,PC2不能ping同PC3,实验目的实现 二、禁止192.168.1.0/24网络ping Web服务器 1、配置路由器R1上的acl功能 2、配置服务器 3

不出国门!上微博看尽ACL2020

徘徊边缘 提交于 2020-10-17 05:40:28
今年ACL2020不像往年一样,只在twitter上有官媒,今年在微博也注册了官方账号,来方便我们了解最新动态,轻松上网,了解前沿,它不香吗? 最新的消息提醒,都会在这里公布,show一下: 快速关注,精彩内容不错过! http:// weibo.cn/qr/userinfo? uid=7472540107 (二维码自动识别) 来源: oschina 链接: https://my.oschina.net/u/4417917/blog/4330917

ACL2020|使用强化学习为机器翻译生成对抗样本

笑着哭i 提交于 2020-10-14 03:00:36
     本文介绍的是 ACL 2020 论文《 A Reinforced Generation of Adversarial Examples for Neural Machine Translation》,论文作者来自南京大学、腾讯。   作者 | 邹 威   编辑 | 丛 末      论文地址:https://arxiv.org/pdf/1911.03677.pdf    1    背景介绍   对抗样本(adversarial example)是近年来用于探索深度学习系统鲁棒性的重要工具。对抗样本通过对普通测试输入进行微小扰动(以不改变人期望输出为准),并以劣化系统输出为目标得到。   当前神经机器翻译(neural machine translation, NMT)系统在实用场合常常会出现用户难以预计的错误,这些错误甚至存在消极的社会影响。而基于用户反馈进行的维护通常也是在这些错误产生后才能进行,开发者更希望在上线前就能进行大量的测试进行预防性维护。直接的鲁棒性测试通常需要专家编制大量对应的测试数据并进行标注,但对于机器翻译这类任务而言成本过高。因此我们可以通过利用已有平行句对的输入产生对抗样本的方式,沿用原本的输出,从而快速得到大量可用于鲁棒分析的平行数据。      图1: 对人名的变动影响了翻译的预期结果(此样例当前已被修复)    2    文本对抗样本及难点

ACL2020 | 什么时候值得用BERT上下文嵌入

余生颓废 提交于 2020-08-17 05:57:21
作者 | Victor Karlsson 原文 | 见页面左下角『阅读原文』 编译 | NewBeeNLP 不知道大家在平时使用时有没有发现,BERT的上下文嵌入非常『昂贵』,并且可能无法在所有情况下带来价值。分享一篇ACL2020的论文,介绍了一些思路。 论文:Contextual Embeddings: When Are They Worth It? 代码:https://github.com/HazyResearch/random_embedding 写在前面 诸如BERT或其改进后代之类的SOTA模型,使用起来十分"昂贵"。仅仅是预训练的『BERT-base』模型(用今天的标准几乎可以认为是很小的模型),也需要在16个TPU芯片上花费了超过4天的时间,而这需要花费数千美元。这甚至都没有考虑对模型进行进一步的微调或最终使用,这两者都只会增加最终的总成本。 与其尝试找出创建更小的Transformer模型的方法( 如何修剪BERT达到加速目的?理论与实现 ),不如退后一步去问: 「基于Transformer模型的上下文嵌入何时真正值得使用?」 在什么情况下,使用GloVe或甚至是随机嵌入等计算成本较低的非上下文嵌入(non-contextual embeddings ),可能达到类似的性能? 这些是Arora等人提出的一些问题,而答案就在他们的研究中: Contextual

ACL2020预训练语言模型部分开源代码整理

百般思念 提交于 2020-08-15 07:43:26
目前ACL2020正在线上开会,刘聪同学 @刘聪NLP 整理了ACL2020中预训练语言模型部分开源代码,有论文,有代码。 而且本仓库还整理了ACL2019,ACL2020,EMNLP2019,NAACL2019中有代码开源的所有论文,代码下载地址。 https://github.com/yizhen20133868/NLP-Conferences-Code ​ github.com 希望对大家有所帮助 :) 后续我们还会持续更新NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集,同时欢迎各位同学提交issue,分享开源项目。 https://github.com/yizhen20133868/NLP-Conferences-Code ​ github.com 来源: oschina 链接: https://my.oschina.net/u/4283164/blog/4339794

ACL2020奇葩论文标题大赏

狂风中的少年 提交于 2020-08-14 11:39:03
本文首发于微信公众号【夕小瑶的卖萌屋】 文|灵魂写手rumor酱 编|不拖更的 @夕小瑶 又是一年一度的ACL,之前通过 卖萌屋Arxiv服务 已经零零碎碎看了一些,还是准备刷一下论文list,看哪篇能让我的模型效果一飞冲天。 中奖论文List : https:// acl2020.org/program/acc epted 刷呀刷呀,不是 XXBERT: XXX ,就是 A XX-based XX for XX ,果然NLP人的世界还是那么枯燥无味。 突然,一个标题吸引了我: Two Birds, One Stone: A Simple, Unified Model for Text Generation from Structured and Unstructured Data 等等,Two Birds,One stone,这个模型名怎么感觉有些怪怪的,翻译过来是。。。一石二鸟???用美妙的中华语言来形容自己优秀的文本生成模型,这都可以? 还有没有更奇葩的标题呢?想到这里,我滑动屏幕的手指也开心了起来。 一览标题list后,我发现了很有潜力的一种标题格式,就是 抓人疑问句/陈述句/感叹句+正经介绍 ,就像荣誉提名的 Do not stop pre-training ,先要抓住审稿人/读者的点,再抛出简要介绍,深得标题党的精髓。 按照这个Pattern

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

蹲街弑〆低调 提交于 2020-08-14 05:09:33
前天晚上ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中,这篇的标题并不起眼,属于看到就想直接跳过的类型。今天细读了一下,发现确实是很有意义的工作。在此与大家分享。 背景介绍 这篇paper解决的是NLP领域的模型评测问题。目前最主流的评测方法是从已有数据中划分出一部分作为测试集,然后测试模型准确率。但这并不能全面地评估一个模型的好坏,还有很多意想不到的情况: 测试集有部分数据和训练集相似度很高,模型如果overfit了也无法发现 测试集存在bias,与真实场景分布不一致 模型采用了某种shortcut才在数据集上表现良好 所以,模型的评估环节存在着不少风险,很难做出一个完美的benchmark。 近年来也涌现了大量关注NLP评测的工作。但之前的这些工作往往还是只能检测模型某种单方面的能力(例如,对噪音的鲁棒性),或者只是提出了针对某种特定任务的评测指标(例如针对NLG任务,测试生成文本前后逻辑一致性)。而且,这些新提出的测试方法往往实际操作起来并不容易。所以尽管传统方法诟病已久,却仍然大行其道。 本文提出的CHECKLIST是一种全新的、颠覆性的评测方式。作者认为:应当 全方位对模型多项

从业20年大佬的经验谈:程序员应多做这4件事

孤街醉人 提交于 2020-08-08 07:34:46
全文共 2288 字,预计学习时长 7 分钟 图源:pexels 我从事自由网络的开发工作已经有将近20年的时间,回首过往的工作经历,我最大的感受就是:这四个习惯,要是能早点儿养成就好了。 深层自动化 你一直擅长运营单人商店,并且能将很多细节和流程牢记在心。该客户的部署有15个步骤,每月执行一次,每次运行最多花费5分钟。 你要与同事讨论该问题,明确需构建的所有功能和需修复的所有故障,有一个问题将反复出现:自动化仅花费你几分钟的时间且每隔一定时间段执行一次,这种操作真的值得吗? 只需要5分钟的时间即可手动执行该过程,频率为每月/次。而将该手工过程自动化需要花费3个小时。自动化操作也许会将运行进程所需时间间从5分钟减少到3分钟。 图源:pexels 这里的关键在于:由于流程实现了自动化,运行此流程的人员可能不再是你本人。 月收益不仅仅是2分钟。你的5分钟可以精简为0分钟,因为流程自动化了这三分钟的事可能会交给别人来做。事实上,其他的任何人都可以执行此任务。关键时刻,团队中有3分钟空闲时间的任何成员都可以去运行该自动化流程。 不必亲力亲为。如果实现了深层次自动化,其他成员可以分担此项任务以便让专注。 广泛测试 由于擅长记忆所有细节,你知道构建新功能时需调整的每个小开关和切换按钮,确保没有通过添加新代码损害其他功能。 图源:pexels 然而,你始终确信没有遗忘什么吗

软件开发人员行动指南:5年从业者的经验之谈

馋奶兔 提交于 2020-08-06 09:18:20
全文共 1374 字,预计学习时长 5 分钟 图源:unsplash 我们常常说过程比结果更重要,那是因为在开发软件过程中遇到的成功或是失败,我们都将收获很多东西。 从业五年后,我想跟大家讲讲,我作为软件开发人员的成长道路和收获的那些经验。 高效地学习 作为一名开发人员,高效地学习非常重要。我们当然可以从其他方法中获得成长,但亲自实践是最好不过的方法了。 我们编写软件来解决问题,而解决问题需要更多的实践。要学会分配学习时间,不必将时间都用来写代码。 在动手实践之前应该阅读一些指导手册和文档,这样我们才能找到正确的开始方向。一次只学一点点就行,没必要太着急。大多数情况下,小的概念更容易学习,先从简单基本的概念开始,然后再攻克更难、更高深的知识,循序渐进。 过时的技术就不用再学习了。之所以过时,是因为它们已经不再有用,或者它们是通过一些不良实践途径实现的。我们要像它们的开发者那样舍弃它们。 学习很重要,更重要的是坚持。 图源:unsplash 善于记录 记录是一个好习惯,有助于记忆和交流。 我们通常会将会议的决定写下来,包括正在进行的工作和接下来必须要做的工作。此外,还有在软件开发过程中遇到的任何问题也应该记下来,比如失败、紧急情况以及解决和预防方案。 以后会用到的代码段也需要记录下来,以便在需要的时候找出来看看。 避免无聊的琐事 任何无聊和重复的事情都交给自动化,例如备份、测试、构建