自然语言处理

认知推理下的常识知识库资源、常识测试评估与中文实践项目索引

笑着哭i 提交于 2020-10-02 14:19:43
作者 | 刘焕勇 责编 | 李雪敬 出品 | CSDN博客 Cognitive Inference Cognitive Inference,认知推理、常识知识库、常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识推理测试评估两个方面出发进行整理,并结合自己近几年来在逻辑性推理知识库的构建、应用以及理论思考进行介绍。具体包括已有常识知识库项目资源介绍、逻辑推理类知识库的项目实践集合、常识推理测试评估项目集合。 项目地址 : https://github.com/liuhuanyong/CognitiveInference/ 项目介绍 常识推理是人工智能的高级阶段,基于已有知识,运用知识推理机技术,完成限定领域决策行为,能够在充分减少人为劳动的同时,产生经济效益。例如,基于已知知识进行知识推理,采用如事件驱动传导路径等进行知识发现,能够辅助于业务的推理和辅助决策,在智能投研进行未知风险预警、在舆情分析中对公司进行舆论控制和监控。 “逻辑知识库”+"逻辑推理机"的混合协作模式,是目前实现以上目的的重要方式。 "逻辑知识库"作为描述现实社会事件之间传导关联的库,需要在规模、质量,领域针对性三个方面入手进行解决。具体地,作者通过对自己所涉及的推理项目进行系统回顾,认为,推理类常识知识库,应该从纵向和横向两个维度出发进行构建。 一、纵向常识逻辑

注意力机制(Attention mechanism)基本原理详解及应用

99封情书 提交于 2020-10-02 14:17:15
注意力模型最近几年在深度学习各个领域被广泛使用,无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中,都很容易遇到注意力模型的身影。所以,了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。 人类的视觉注意力 从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。 图1 人类的视觉注意力 视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。 这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。 图1形象化展示了人类在看到一副图像时是如何高效分配有限的注意力资源的,其中红色区域表明视觉系统更关注的目标,很明显对于图1所示的场景,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置。 深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,核心目标也是从众多信息中选择出对当前任务目标更关键的信息。 Encoder-Decoder框架 要了解深度学习中的注意力模型,就不得不先谈Encoder

乘风破浪的PTM:两年来预训练模型的技术进展

那年仲夏 提交于 2020-10-02 13:41:23
作者 | 张俊林 来源 | 深度学习前沿笔记专栏 Bert模型自18年10月推出,到目前为止快两年了。它卜一问世即引起轰动,之后,各种改进版本的预训练模型(Pre-Training Model, PTM)与应用如过江之鲫,层出不穷。Bert及它的继任者们,确实也不负众望,在NLP各个领域攻城略地,所向披靡,多种NLP数据集竞赛榜单,连续多年被各种新出现的预训练模型霸榜,有些榜单,个别模型已经把指标刷到超过人类。 那么,在近两年的时间里,诸多改进模型中,有哪些令人印象深刻的新模型?在那些表现突出的新模型中,是哪些因素导致它们的良好表现?预训练模型技术本身有重大的改动或创新么?或者,关于预训练模型,目前有哪些相对明确的结论?根据目前的技术发展水准,如何根据现有结论,来打造最强的预训练模型?本文通过梳理现有技术文献,试图来回答上述一系列问题。本文的数据都客观有出处,但是对数据的解读,带有严重的个人色彩,偏颇难免,还请谨慎参考。另外,如要透彻理解本文,需要有关于预训练模型的先导基础知识,对这个不太了解的同学,建议先阅读下文打个基础: 张俊林:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 我们知道,在预训练模型框架下,解决NLP问题,会划分为序列进行的两阶段:第一阶段是预训练阶段,然后是Fine-tuning阶段,本文集中在预训练阶段。

学了这么久,你知道Python机器学习全流程是怎样的么?

こ雲淡風輕ζ 提交于 2020-10-02 11:23:27
万事开头难,首先Python机器学习整个流程的第一步就是学习Python这门编程语言的相关基础知识。 第一步:基本 Python 技能 如果要使用 Python 进行机器学习,拥有对 Python 有基础的理解非常关键。幸运的是,Python 是当前普遍使用的流行语言,并纳入了科学计算和机器学习的内容,所以找到入门教程并不困难。在选择起点时,很大程度上要取决于你之前的 Python 经验和编程经验。 这里推荐几本python入门必读书籍: 别再说你不知道怎么学习Python了,13本书给你安排的明明白白! 对于想要速成课程的人,这里有 全网最全Python学习路线图+14张思维导图,让你不走弯路! 第二步:机器学习基础技能 KDnuggets 的 Zachary Lipton 指出,人们对数据的认识千差万别,这实际上是对机器学习领域的反映。数据科学家在不同程度上使用计算学习算法。要建立和使用支持向量机模型,熟知核函数方法是否是必需的?答案当然不是。就像现实生活中的许多事情一样,所需要的理论深入程度与具体的实际应用有关。获取对机器学习算法的深入理解不是本文的讨论范围, 而且这通常需要在学术领域投入大量时间,或者至少要通过密集的自学才能达到。 好消息是,你不必拥有博士级别的机器学习理论能力才能进行实践,就如同不是所有程序员都必须接受计算机理论教育才能写好代码。 关于机器学习基础技能

《Don't Stop Pretraining》

假装没事ソ 提交于 2020-10-02 08:26:27
题目:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 来源:ACL 2020 原文链接: https://www. aclweb.org/anthology/20 20.acl-main.740.pdf Abstract 对各种来源的文本进行预训练的语言模型构成了当今NLP的基础。鉴于这些广泛覆盖的模型的成功,我们研究了将预训练的模型在目标任务的领域再次预训练是否仍然有帮助。我们提出了一项针对四个领域(生物医学和计算机科学出版物,新闻和评论)和八个分类任务的研究,表明在领域内进行再次进行预训练(领域自适应预训练)可提高性能。此外,在进行域自适应的预训练之后,在特定任务的未标记数据进行预训练(任务自适应的预训练)也可以提高性能。最后,我们证明,使用简单的数据选择策略进行数据增强是一种有效的选择,尤其是在没有用于领域自适应预训练的资源时。总体而言,我们发现,多阶段自适应预训练可大大提高模型性能。 1. Introduction 当今的预训练语言模型是在庞大的异构语料库上进行训练的。 例如,ROBERTA在160GB以上的非压缩文本进行训练,包括英语百科全书,新闻文章,文学作品和Web内容。 通过这些模型学习到的表示,在包含多种来源的各种大小的数据集的许多任务中实现出色的性能。 这让我们提出了一个问题

程序员欢乐送(第20期)

匆匆过客 提交于 2020-10-02 08:02:22
程序员欢乐送(第20期) 收录于话题 #程序员欢乐送 59个 对于我来说,我一直保持的追求有三点:技术、快乐、财富。因此,从此三点出发,记录过去一周,我所看到的,值得分享的内容,每周五把欢乐送达。 由于微信不允许外部链接,你需要点击页尾左下角的“ 阅读原文 ”,才能访问文章的链接,文中的所有链接已使用 蓝色字体标记 。 「 技术 Technology 」 1、Windows Terminal 微软Build大会上,微软正式发布了命令行工具Windows Terminal,该工具提供多标签、分割窗口、快捷键、完整的Unicode字符支持等功能。 最重要的是,它支持PowerShell,Cmd,WSL(Windows的Linux子系统)和SSH等命令行程序,可以说是全平台制霸,简化开发者的工作流程。 微软还给Windows Terminal加入很多细节功能,让它更美观。 项目地址: 点击查看 2、Google Assistant 微软Build大会之后紧跟着的就是Google I/O 2019大会,两位巨佬为很多公司指引方向。在Google I/O 2019大会上,Google Assistant再次进化,移动端实时识别语音速度提升 10 倍! 如今的语音助手和人的对话已经接近自然,在与 Google Assistant 对话中,用户可以跨越手机上的 APP 工作。 除此之外

推特上的中国形象,越来越坏了吗?清华研究团队揭晓内幕

浪尽此生 提交于 2020-10-02 07:38:31
     作者 | 蒋宝尚   编辑 | 陈大鑫   自今年年初疫情爆发以来,中国话题一直成为国际媒体领域的热门话题,有好有坏;这些话题内容也让我们见识到了国外媒体的无底线、无节操。   那么,自然而来一个问题:如何用数据来理解国际社会中的“中国形象”?   清华大学计算机系自然语言处理与社会人物计算实验室与新闻与传播学院金兼斌教授课题组,近期合作完成了一篇相关研究: “以中国为例的COVID-19疫情期间国家形象” (Country Image in COVID-19 Pandemic: A Case Study of China)。   这篇文章收集了Twitter平台上关于中国的相关文本,并对之进行了属性级别的情感分析,进而探索了疫情期间英文推特上不同群体视角下的中国形象。除此之外,他们还进一步阐释了这些现象背后的机理以及发展趋势。    1   所谓国家形象,即公众对一个国家的看法,涉及政治、经济、外交、文化等多个方面。   正如个人形象影响个人前途,国家形象对一个国家的国际关系和经济发展也有着十分重要的影响。   近些年来,随着中国的快速发展及其在全球影响力的不断提升,中国的国家形象不断发生改变,而2020年的新型冠状肺炎疫情爆发进一步在全球范围内改变了中国形象。   因此,深入了解疫情期间中国形象的特点与变化,对于应对后疫情时代我国对外传播的新形势具有至关重要的作用。

从 IOI 竞赛走出的黄金一代:王小川、楼天城、鬲融、陈丹琦、胡伟栋...

徘徊边缘 提交于 2020-10-02 07:20:26
     作者 | 黄善清   编辑 | 陈大鑫   一年一度的 IOI 竞赛正在新加坡召开,如无意外,中国队又将在这场属于中学生的信息学狂欢盛宴中收获丰盛。从第一届 IOI 赛事开始,中国每年都会派遣学生前往参赛,至今已收获 86 枚金牌,为中国计算机领域输出了大批的信息学顶尖人才。   这批从 IOI 走出来的顶尖高手,有的以改变产业为己任,以 96 年金牌得主搜狗公司 CEO 王小川为例,在时代的浪潮中贡献出自己的一份力量;有的醉心于科研,以 04 年金牌得主鬲融为例,源源不断地为计算机学界贡献一篇又一篇富有洞见的研究成果,甚至夺下计算机领域的重要大奖;有的甘于平淡,04 年的另一名金牌得主胡伟栋,则在自己最热心的奥林匹克竞赛教育领域自得其乐。   今天 AI 科技评论就盘点一下这批从 IOI 赛事走出来的少年天才们,后来怎么一步步活成了自己想要的模样。    1    产业界    王小川,96年金牌得主   “我喜欢编程,对我来说,编程是创造一个生命。这个生命有你的技术展示,有你的思想注入,有你对美的理解,最后产生表达虚拟运行的生命,程序是有生命的。”         96 年获奖成绩   在拿到 IOI 金牌以前,二年级的王小川便已经展露了计算机方面的过人天赋。即便 1985 年的计算机的编程速度还很慢,他依然用来做了几件让老师和同学们感到震惊的事情

Keras情感分析(Sentiment Analysis)实战---自然语言处理技术

笑着哭i 提交于 2020-10-02 06:12:14
情感分析(Sentiment Analysis)是自然语言处理里面比较高阶的任务之一。仔细思考一下,这个任务的究极目标其实是想让计算机理解人类的情感世界。我们自己都不一定能完全控制和了解自己的情感,更别说机器了。 不过在人工智能的 认知智能 阶段(人工智能三阶段——计算智能,感知智能,认知智能),商家还是可以用它来做一些商品或服务的评论分析,继而有效地去优化商品或服务,为消费者们提供更好用户体验。 情感分析任务简介 情感分析任务其实是个 分类任务 ,给模型输入一句话,让它判断这句话的情感是积极的,消极的,还是中性的。例子如下: 输入:的确是专业,用心做,出品方面都给好评。 输出:2 输出可以是[0,1,2]其中一个,0表示情感消极,1表示情感中性,2表示情感积极。 情感分析这个任务还有一个升级版—— 细腻度的情感分析 。升级版希望模型不仅能识别出情感的好坏,而且还希望模型能识别出是由于什么原因导致这种情感发生。举个例子,"这家餐厅的地理位置不错,可惜菜不怎么好吃",我们就需要识别出,在地理位置这个aspect上情感是积极的,而在菜的味道这个aspect上情感是消极的。听起来是不是很难,所以实战部分我只简单介绍一下麻瓜版的情感分析任务——简单的分类。 情感分析算法简介 分类任务的算法,想必大家都很熟悉:SVM,Logistic,Tree等。可是对于文本分类来说

8个机器学习项目创意,助你在求职竞争中脱颖而出

流过昼夜 提交于 2020-10-02 03:36:01
本文转载自公众号“读芯术”(ID:AI_Discovery)。 纸上得来终觉浅,绝知此事要躬行。光看教程是不够的,你需要通过实践来掌握更多更真实的内容。以下有8个创意十足的机器学习实操项目供你选择,赶紧行动起来吧! 1. 基于社交媒体帖子的抑郁情绪分析 世界上有超过2.64亿人患有抑郁症。抑郁症是全球残疾、疾病的主要原因,每年都有近80万人自杀身亡——自杀是15-29岁人群死亡的第二大原因。但与之相对的是,针对抑郁症的治疗却经常不到位、不及时、不精确。 网络为改变早期抑郁提供了机会,尤其是针对青年人的病症。推特上每时每刻发送的推文几乎超过35万条,每天发送5亿条,每年则约2000亿条。 皮尤研究中心指出,72%的人依靠互联网生活。社交网络发布的数据集对于很多领域都很重要,比如人文科学和大脑研究。通过分析社交媒体帖子中的语言标记,可以建立深度学习模型,使个人了解其心理健康状况,这种方法比传统方法快很多。 2. 使用神经网络将体育比赛视频转换为文本摘要 图源:Unsplash 这个项目的想法是,从体育比赛视频中获取精确的摘要,而后将高光部分发布在体育网站上。科学家已经提出了各种用于提取文本摘要的模型,但是神经网络的效果最好。一般来说,摘要是指在一个简要的结构中引入信息,集中传达事实和信息,同时保证其重要性。 自动生成游戏视频的摘要给辨别游戏高光部分带来了挑战。 为了完成上述任务