自然语言处理 | 易学教程

基于隐马尔可夫模型的有监督词性标注

阅读更多关于基于隐马尔可夫模型的有监督词性标注

版权声明：本文为博主原创文章，未经博主同意不得转载。 https://blog.csdn.net/yutianzuijin/article/details/33292841 代码下载：基于隐马尔可夫模型的有监督词性标注词性标注（Part-of-Speech tagging 或 POS tagging)是指对于句子中的每一个词都指派一个合适的词性，也就是要确定每一个词是名词、动词、形容词或其它词性的过程，又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的很多领域都发挥着关键的数据。词性标注本质上是一个分类问题，对于句子中的每一个单词W。找到一个合适的词类类别T，也就是词性标记，只是词性标注考虑的是总体标记的好坏，既整个句子的序列标记问题。对于分类问题，有非常多现成的数学模型和框架能够套用。譬如HMM、最大熵模型、条件随机场、SVM等等。在本博客中我们介绍基于隐马尔可夫模型（HMM）的词性标注。 1 隐马尔可夫模型（HMM）隐马尔科夫模型(HMM)是什么？说白了。就是一个数学模型，用一堆数学符号和參数表示而已，包含隐藏状态集合、观察状态集合、初始概率向量, 状态转移矩阵A。混淆矩阵B。在 wiki上一个比較好的HMM样例，浅显易懂地介绍了HMM的基本概念和问题，初次接触HMM的人能够首先看一下这个样例。在 Hidden

「自然语言处理(NLP)」神经机器翻译(NMT)论文整理(一)

阅读更多关于「自然语言处理(NLP)」神经机器翻译(NMT)论文整理(一)

喜欢我们，点击上方 AINLPer ，关注一下，极品干货即刻送达！祝大家周末愉快~~ 引言下面是作者整理的关于神经机器翻译（NMT）相关的论文，下面这10篇文章都顶会ICLR发表的文章，能找到源码的作者也直接贴出来了，如果你对NMT感兴趣或者也在找一些相关的文章，希望能够帮助你 ~ 关于本次分享得十篇NMT文章，后台回复： NMT001 可见下载链接。最后，帮作者点个在看吧，谢谢~~ 正文开始 1 First Blood TILE: Multilingual Neural Machine Translation with Knowledge Distillation Author: Xu Tan, Yi Ren, Di He, Tao Qin, Zhou Zhao, Tie-Yan Liu Paper: openreview.net/pdf? 论文简述：多语言机器翻译以其离线训练和在线服务的效率而备受关注。然而，由于语言多样性和模型容量的限制，传统的多语言翻译通常会产生较低的准确性。在本文提出了一种基于提取的方法来提高多语言机器翻译的准确性。 TILE: Mirror-Generative Neural Machine Translation Author: Zaixiang Zheng, Hao Zhou, Shujian Huang, Lei Li, Xin

重磅盘点：过去8年中深度学习最重要的想法

阅读更多关于重磅盘点：过去8年中深度学习最重要的想法

原文： Deep Learning’s Most Important Ideas[1] 作者：Denny Britz（ML 研究员，Google Brain 前成员）译者：REN 深度学习是一个瞬息万变的领域，层出不穷的论文和新思路可能会令人不知所措。即使是经验丰富的研究人员，也很难准确将研究成果传达给公司的公关部门，继而传达给大众。对于初学者来说，理解和实现这些技术有利于打下坚实的理论基础，是入门的最佳方法。在深度学习领域，很多技术都可以跨域多个应用领域，包括计算机视觉，自然语言，语音识别和强化学习等等。在计算机视觉领域使用过深度学习的人，可能很快就能将类似的技术应用到自然语言研究中，即使特定的网络结构有所不同，但其概念，实现方法和代码基本一致。必须强调的是，本文侧重于计算机视觉，自然语言，语音识别和强化学习领域，但不会详细解释每种深度学习技术，用寥寥数百字解释清楚一篇几十页的论文是不现实的。另外还有一些不容易重现的重要研究，比如 DeepMind 的 AlphaGo 或 OpenAI 的 OpenAI Five（Dota 2 模型），涉及到巨大的工程和运算挑战，因此也不是讨论的重点。这篇文章的目的，是回顾在深度学习领域影响深远的成果，概述每种技术及其历史背景，尽量引导深度学习新人接触多个领域的基础技术。它们是这个领域最值得信赖的基石，每一个技术都经过了无数次的引用

Python读懂你的心

阅读更多关于 Python读懂你的心

Python读懂你的心一、前言人工智能是Python语言的一大应用热门，而自然语言处理又是人工智能的一大方向。自然语言处理（ natural language processing ）简称NLP，是研究人同计算机之间用自然语言通信的一种方法。我们都知道，计算机本质上只认识0和1，但是通过编程语言我们可以使用编程语言同计算机交流。这实际上就是程序员同计算机之间的通信，而我们日常生活中使用的是自然语言，是一种带有情感的语言。那么要怎么使计算机理解这种带有情感的语言呢？这就是自然语言处理研究的内容了。语言的情绪识别是自然语言处理的一种操作，如果要我们从0开始实现情绪识别是比较繁琐的。首先我们需要准备好足够的数据，为了让计算机更好的理解，我们还需要对数据进行预处理，之后需要训练数据，有了训练数据我们才能开始情绪识别。识别的准确率在于数据的相关性和数据量，数据相关性越高，数据量越大，识别的准确率就越高。然而，我们使用 paddlehub 可以很快的实现情绪识别，我们先看看如何安装。二、安装 paddlehub paddlehub 是百度飞桨 PaddlePaddle 中的一个模型库，使用 paddlepaddle 可以很快的实现多种多样的操作，其中就有我们今天要说到的文字情绪识别，而且代码非常简单。首先我们需要安装 paddlepaddle ，我们进入官网 https://www

智能音箱:我是物联网入口；物联网:别闹了行吗？

阅读更多关于智能音箱:我是物联网入口；物联网:别闹了行吗？

智能音箱：我是物联网入口；物联网：别闹了行吗？是不是每个互联网公司都有硬件梦？继集体造手机、造手环后，今年开始互联网公司又集体造起了智能音箱。国外有亚马逊的Echo、谷歌的Google Home、苹果的Homepod，就连做社交和表情包的日本企业Line也宣布要推出智能音箱（还是表情包同款哟）。中国企业更是不甘落后，先有京东推出的叮咚，随后一大票创业公司带着相关产品上了众筹。最近酷狗音乐、喜马拉雅等等内容平台也说推出智能音箱。今天就来探讨一下，智能音箱到底是传说中的物联网入口，还是像曾经的智能手表/手环一样，只是一阵风潮。如果一定要给智能音箱下个定义...... 首先，智能音箱这一概念就是十分模糊的。很多创业公司把能连蓝牙的音箱、能连WiFi的音箱都称作智能音箱……对于这种行为我只能说，如果这样能帮您们发出下个月工资的话，请随便用“智能”二字给产品起名吧！总结了一下市面上的产品，我们可以大胆的给智能音箱下一些定义： 1、拥有无线WiFi、蓝牙等等基本功能； 2、除了App、触摸按键等等，还可以通过内置麦克风进行语音交互； 3、除了播放音乐外，还可以承担语音助手工作，连接其他产品；本着这几项定义，我们可以将智能音箱分为两类，一种是以流媒体内容为主，以AI技术优化用户体验内容的方式；另一种则是以语音交互为主，把智能音箱当做物联网交互的入口。

以‘不作恶’来作恶的谷歌和被略根性滋养的中国互联网

阅读更多关于以‘不作恶’来作恶的谷歌和被略根性滋养的中国互联网

互联网一个特点是，从来不缺乏热闹。这几天在网上又引发了一件让人经不住想去凑热闹的事情。《人们日报》在Twitter和facebook上发言，知道这两个网站的人可能不太多，尽管他们是世界上访问量最大的两个网站。《人民日报》是这么说的：它意思是说，欢迎谷歌回到中国大陆进行商业经营，但前提是它必须遵守大陆的法律法规，所有外国互联网公司要在中国经营的话，都应当遵守中国的网络管理条例。中国日报作为党的喉舌，它的言论虽然不能作为政府官方态度，但在很大程度上传达了政府意志。看到这则推文，我有喜有悲。喜的是《人民日报》向谷歌释放善意，在某种程度上表达了政府对信息开放的积极态度，它体现了中国政府很多优点：务实，自信，有谈判力，有说服力，能够理解和接纳主流世界的通用规则，最重要的是，它表达了高层愿意进一步推进改革开放的意愿，中国不会在信息传递，文化交流，商业运作上自绝于与外部世界的沟通和连接，这在美国越来越孤立，越来越封闭的情况下，更是难能可贵。悲的是people’s Daily能上这些网站，而我作为people中的一员，根据相关法律法规，我就上不去，这种只许州官放火不许百姓点灯的行为，颇令人无奈。八年前谷歌退出中国大陆，是一种典型的多输。近来苹果公司的市值突破一万亿美金，谷歌，亚马逊，微软市值在八千亿作用徘徊，苹果能一马当先的主要原因就在于它拥有中国市场，苹果20%的收入来自中国

xgboost：

阅读更多关于 xgboost：

https://www.zybuluo.com/Dounm/note/1031900 GBDT算法详解　　 http://mlnote.com/2016/10/05/a-guide-to-xgboost-A-Scalable-Tree-Boosting-System/ XGboost: A Scalable Tree Boosting System论文及源码导读 2016/10/29 XGboost核心源码阅读 2016/10/05 XGboost: A Scalable Tree Boosting System论文及源码导读 2016/11/18 简述FastDBT和LightGBM中GBDT的实现 2016/10/29 XGboost核心源码阅读 2016/10/05 XGboost: A Scalable Tree Boosting System论文及源码导读 2016/10/02 Gradient Boosting Decision Tree[下篇] 2016/09/24 Gradient Boosting Decision Tree[上篇] xgboost 解读（2）——近似分割算法 zhihu： -如何理解 Bregman 散度？ -有哪些指标可以描述两个图（graph）的相似度？ -CNN模型可以输入离散特征吗？ - xgboost

Hinton新作！越大的自监督模型，半监督学习需要的标签越少

阅读更多关于 Hinton新作！越大的自监督模型，半监督学习需要的标签越少

来源：AI科技评论编译：青暮本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作，一作是Ting Chen，研究人员首次在ImageNet上尝试了半监督学习的典型范式，并取得了优越的结果。此外，他们还发现，网络的规模越大，需要的标签数据越少。论文地址：https://arxiv.org/abs/2006.10029 仅使用1％的标签（每类≤13个标签图像），本文提出的方法即可达到73.9％ImageNet top-1准确率，与以前的SOTA相比，标签效率提高了10倍。使用10％的标签，本文的方法可以达到77.5％的top-1准确率，优于使用100%标签的标准监督训练。 “无监督预训练、监督微调”范式充分利用少量标记示例和大量未标记示例进行学习是机器学习的一个长期存在的问题。人们曾经提出一种半监督学习来试图解决这个问题，其中涉及无监督或自监督的预训练，然后进行有监督的微调。这种方法在预训练期间以与任务无关的方式利用未标记的数据，仅在有监督微调时使用带标签的数据。这种方法在计算机视觉上很少受关注，但是在自然语言处理中已成为主流。例如，人们首先在未标记的文本（例如Wikipedia）上训练大型语言模型，然后在一些带标记的示例中对该模型进行微调。基于视觉表示的自监督学习的最新进展，Ting Chen等人对ImageNet上的半监督学习进行了深入研究

全球对话技术顶赛DSTC9落幕，百度NLP开源PLATO-2斩获四项冠军

阅读更多关于全球对话技术顶赛DSTC9落幕，百度NLP开源PLATO-2斩获四项冠军

　　机器之心发布　　机器之心编辑部　　全球人工智能学术竞赛 DSTC 是对话系统技术领域的顶级赛事。2020 年度第九届国际对话技术竞赛 DSTC9 共设有 4 个赛道（Track-1～Track-4），主办方包括 Facebook、亚马逊、微软、卡内基梅隆大学、清华大学等，参与者广泛覆盖了企业和高校的参赛团队。　　近期 DSTC9 官方陆续公布各个赛道排名。百度参与了 DSTC9 前 3 个赛道中 4 项任务的角逐，并在最终的榜单中拔得头名，成绩令人瞩目。这些赛道全面涵盖了开放域闲聊、知识对话、任务型对话等关键问题。据悉，百度在这些任务中所使用的核心技术，均基于其最近开源的开放域对话模型 PLATO-2。　　PLATO-2 是基于隐空间技术的大规模开放域对话模型，参数规模高达 16 亿，可就开放域话题深度畅聊，在中英文效果上，已全面超越 Google Meena、Facebook Blender、微软小冰等先进模型。PLATO-2 采用了课程学习进行训练，其过程包括两个阶段：第一阶段，基于简化的 “一对一” 映射，训练得到基础的回复生成模型；第二阶段包含生成 - 评估两个模型，针对开放域对话的 “一对多” 问题，通过引入离散隐变量进行建模，训练得到更高质量的回复生成模型，同时训练评估模型，从多个候选中选择出最合适的回复。这种框架具有很强的通用能力

算法在岗一年的经验总结

阅读更多关于算法在岗一年的经验总结

说起来今天还是一个有意思的日子，去年在美团实习，离职的时间也是12月7日。算起来，自己的算法在岗应该也有一年了，在美团担任算法工程师大概有7个月，OPPO加上实习，估计也一年多吧，时间过的好快，这周末给大家谈谈我的感想吧，相比各位大佬，我的经验尚属稚嫩，但是也希望能给一些准备入行的、刚入行的人一些经验和建议吧，相关文章其实我也聊得不少，这里有部分重点我可能还会聊到，但是不见得都会说到，所以可以看看我以前的文章：我从研究生生活中得到的经验 NLP.TM | 我的NLP学习之路懒人目录：算法工作的一天都要干什么。特别的经验。有关学习。写在最后。算法工作一天都要干什么很多人可能再想想着每天在研究模型，看论文，实现模型之类的，这方面虽然非常重要，但是实际上并非如此。每天这些时间会花的更多：和产品沟通，技术方案设计。数据层面花费的时间最多。需要什么样的数据。写SQL。检查数据质量，空的、错的、不合法的。特征工程。有监督学习，需要标注数据，怎么标，标注本身是否可靠。模型选择与开发。这块可以这么说，随着工作经验提升，这块时间会越来越少。模型选择的话，把问题抽象出来，其实都比较好选，第一版模型一般是业内基线或者最简单的模型，像我，二分类先搞LR（logistic regression），序列标注就是CRF。模型开发也基本不耗时

订阅自然语言处理