自然语言处理

人物关系挖掘方案设计

前提是你 提交于 2020-04-21 05:33:41
背景 拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。 要解决的问题 1、识别人名:ner 命名实体识别。 2、识别两个人是有关系的;   人名共现来说明两个人之间有关系;   词向量计算词与词之间的相似度来说明两个人之间关系。 3、人物关系挖掘。   两个人名满足某种依存模式,则将两个人名和关系抽取出来。   用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注   依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB); 技术方案、基于依存句法的人物关系抽取 核心工程 模式_实例1 两人名实体同时位于主语,并列关系 例如:1914年,孔祥熙与宋霭龄于日本结婚。 利用哈工大语言云进行句法分析得到结果如下: 模式_实例2   两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。   例如:邓超的妻子孙俪也是著名演员。   使用句法分析得到结果如下: 模式_实例3   两人名实体位于宾语,修饰关系   例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。 模式_实例4   两人名实体分别为主语和宾语,这种情况时, 选取谓语动词作为特征词 。   例如“子路师从孔子” 模式_实例5   关系名为主语、人名2为宾语,这种情况时,选取谓语动词

美团BERT的探索和实践

馋奶兔 提交于 2020-04-20 08:23:09
他山之石,可以攻玉。美团点评NLP团队一直紧跟业界前沿技术,开展了基于美团点评业务数据的预训练研究工作,训练了更适配美团点评业务场景的MT-BERT模型,通过微调将MT-BERT落地到多个业务场景中,并取得了不错的业务效果。 背景 2018年,自然语言处理(Natural Language Processing,NLP)领域最激动人心的进展莫过于预训练语言模型,包括基于RNN的ELMo[1]和ULMFiT[2],基于Transformer[3]的OpenAI GPT[4]及Google BERT[5]等。下图1回顾了近年来预训练语言模型的发展史以及最新的进展。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。此外,预训练语言模型的成功也开创了NLP研究的新范式[6],即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体NLP任务(分类、序列标注、句间关系判断和机器阅读理解等)。 图1 NLP Pre-training and Fine-tuning新范式及相关扩展工作 所谓的“预训练”,其实并不是什么新概念,这种“Pre-training and Fine-tuning”的方法在图像领域早有应用。2009年,邓嘉

【课程学习】课程2:十行代码高效完成深度学习POC

情到浓时终转凉″ 提交于 2020-04-19 16:11:59
本文用户记录黄埔学院学习的心得,并补充一些内容。 课程2:十行代码高效完成深度学习POC,主讲人为百度深度学习技术平台部:陈泽裕老师。 因为我是CV方向的,所以内容会往CV方向调整一下,有所筛检。 课程主要有以下三个方面的内容: 深度学习POC的基本流程 实用预训练模型应用工具快速验证 通用模型一键检测 十行代码完成工业级文本分类 自动化调参AutoDL Finetuner 一、深度学习POC的基本流程 1.1 深度学习发展历程 2006年,这一年多伦多大学的Geoffrey Hinton教授发表的论文,提出了两个重要观点:(1)多层的神经网络模型有很强的特征学习能力,深度学习模型能够学习到的数据更本质的特征;(2)对于深度神经网络获得全局最优解的问题,可以采用逐层训练方法解决。自此,深度学习迅速发展。2007年,深度学习框架Theano发布,用于优化多维数组的计算。2011年,深度学习首先在语音识别领域取得突破。2012年,Krizhevsky等人首次将卷积神经网络应用至ImageNet图像识别大赛,大获全胜。随后,深度学习在自然语言处理、图像识别等多个领域遍地开发。2016年,基于深度强化学习的AlphaGo战胜李世石,大放异彩,以深度学习为代表的人工智能技术在广大群众中热议。2019年,三位深度学习之父:Geoffrey Hinton, Yann LeCun,和Yoshua

利用Bert和Milvus快速搭建智能问答机器人

走远了吗. 提交于 2020-04-18 12:23:38
问答系统是自然语言处理领域一个很经典的问题,它用于回答人们以自然语言形式提出的问题,有着广泛的应用。其经典应用场景包括:智能语音交互、在线客服、知识获取、情感类聊天等。常见的分类有:生成型、检索型问答系统;单轮问答、多轮问答系统;面向开放领域、特定领域的问答系统。本文涉及的主要是在检索型、面向特定领域的问答系统,通常称之为——智能客服机器人。 在过去,客服机器人的搭建通常需要将相关领域的知识(Domain Knowledge),转化为一系列的规则和知识图谱。构建过程中重度依赖“人工”智能,换个场景,换个用户都需要大量的重复劳动。 随着深度学习在自然语言处理(NLP)中的应用,机器阅读可以直接自动从文档中找到匹配问题的答案。深度语言模型会将问题和文档转化为语义向量,从而找到最后的匹配答案。本文借助Google开源的Bert模型结合Milvus开源向量搜索引擎,快速搭建基于语义理解的对话机器人 整体架构 本文通过语义相似度匹配来实现一个问答系统,大致的构建过程: 获取某一特定领域里大量的带有答案的中文问题(本文将之称为标准问题集)。 使用Bert模型将这些问题转化为特征向量存储在Milvus中,同时Milvus将 给这些特征向量分配一个向量ID。 将这些代表问题的ID和其对应的答案存储在PostgreSQL中。 当用户提出一个问题时: 通过Bert模型将之转化为特征向量

几行代码搞定ML模型,低代码机器学习Python库正式开源

痴心易碎 提交于 2020-04-18 12:22:19
PyCaret 库支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型,提升机器学习实验的效率。 想提高机器学习实验的效率,把更多精力放在解决业务问题而不是写代码上?低代码平台或许是个不错的选择。 最近,机器之心发现了一个开源低代码机器学习 Python 库 PyCaret,它支持在「低代码」环境中训练和部署有监督以及无监督的机器学习模型。 GitHub 地址: https:// github.com/pycaret/pyca ret 用户文档: https://www. pycaret.org/guide Notebook 教程: https://www. pycaret.org/tutorial PyCaret 库支持数据科学家快速高效地执行端到端实验,与其他开源机器学习库相比,PyCaret 库只需几行代码即可执行复杂的机器学习任务。 该库适合有经验的数据科学家、倾向于低代码机器学习解决方案的公民数据科学家,以及编程背景较弱甚至没有的新手。 PyCaret 库支持多种 Notebook 环境,包括 Jupyter Notebook、Azure notebook 和 Google Colab。从本质上来看,PyCaret 是一个 Python 封装器,封装了多个机器学习库和框架,如 sci-kit-learn、XGBoost、Microsoft LightGBM

机器学习基础——带你实战朴素贝叶斯模型文本分类

别来无恙 提交于 2020-04-18 07:40:30
本文始发于个人公众号: TechFlow <br> 上一篇文章当中我们介绍了 朴素贝叶斯模型的基本原理 。 <br> 朴素贝叶斯的核心本质是假设样本当中的变量 服从某个分布 ,从而利用条件概率计算出样本属于某个类别的概率。一般来说一个样本往往会含有许多特征,这些特征之间很有可能是有相关性的。为了简化模型,朴素贝叶斯模型 假设这些变量是独立的 。这样我们就可以很简单地计算出样本的概率。 <br> 想要回顾其中细节的同学,可以点击链接回到之前的文章: 机器学习基础——让你一文学会朴素贝叶斯模型 <br> 在我们学习算法的过程中,如果只看模型的原理以及理论,总有一些纸上得来终觉浅的感觉。很多时候,道理说的头头是道,可是真正要上手的时候还是会一脸懵逼。或者是勉强能够搞一搞,但是过程当中总会遇到这样或者那样各种意想不到的问题。一方面是我们动手实践的不够, 另一方面也是理解不够深入。 <br> 今天这篇文章我们实际动手实现模型,并且在 真实的数据集 当中运行,再看看我们模型的运行效果。 <br> <br> 朴素贝叶斯与文本分类 <br> 一般来说,我们认为 狭义的事件 的结果应该是有限的,也就是说事件的结果应该是一个 离散值 而不是连续值。所以早期的贝叶斯模型,在引入高斯混合模型的思想之前,针对的也是离散值的样本(存疑,笔者推测)。所以我们先抛开连续特征的场景,先来看看在离散样本当中

nltk-比较中文文档相似度-完整实例

爷,独闯天下 提交于 2020-04-18 04:35:51
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 代码如下,需要jieba的支持 #!/usr/bin/env python #-*-coding=gbk-*- """ 原始数据,用于建立模型 """ #缩水版的courses,实际数据的格式应该为 课程名\t课程简介\t课程详情,并已去除html等干扰因素 courses = [ u'Writing II: Rhetorical Composing', u'Genetics and Society: A Course for Educators', u'General Game Playing', u'Genes and the Human Condition (From Behavior to Biotechnology)', u'A Brief History of Humankind', u'New Models of Business in Society', u'Analyse Numrique pour Ingnieurs', u'Evolution: A Course for Educators', u'Coding the Matrix: Linear

计算机视觉中的对象检测,Python用几段代码就能实现

自古美人都是妖i 提交于 2020-04-17 21:34:16
目前计算机视觉(CV)与自然语言处理(NLP)及语音识别并列为人工智能三大热点方向,而计算机视觉中的对象检测(objectdetection)应用非常广泛,比如自动驾驶、视频监控、工业质检、医疗诊断等场景。 下面就是我们完整的代码实现(已调试运行): 如图所示,我们将会检测到红色区域 最终的效果图: 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://t.cn/A6Zvjdun 2020年最新Python教程: 如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗? 说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。 以上这些教程小编已经为大家打包准备好了,希望对正在学习的你有所帮助! 获取方式,私信小编 “ 资料 ”,即可免费获取哦! 来源: oschina 链接: https://my.oschina.net/u/4414278/blog/3269903

今日Paper|联合抽取;流式语音识别;差异学习;Skip-Thought向量等

烂漫一生 提交于 2020-04-17 20:02:41
   目录   在序列标注模型中使用位置注意力进行抽取实体与重叠关系的联合抽取   将混合CTC/Attention方法嵌入到Transformer结构中实现在线端到端的流式语音识别架构   基于人工反向修正数据的差异学习   利用一种基于多属性邻近度的方法从可比较的新闻语料库中挖掘事件   Skip-Thought向量    在序列标注模型中使用位置注意力进行抽取实体与重叠关系的联合抽取   论文名称:Joint extraction of entities and overlapping relations using position-attentive sequence labeling   作者:Dai Dai / Xinyan Xiao / Yajuan Lyu / Shan Dou / Qiaoqiao She / Haifeng Wang   发表时间:2019/7/17   论文链接:https://aaai.org/ojs/index.php/AAAI/article/view/4591   本文设计了一种基于位置信息和上下文信息的注意力机制,同时将一个关系抽取任务拆成了n(n为句子的长度)个序列标注子任务,一个阶段即可将实体、关系等信息抽取出来。   本文发表时在两个数据集上达到了SOTA,并且对于跨度长的关系、重叠关系表现尤其好。  

ACL2020|PLATO:百度发布首个大规模隐变量对话模型

情到浓时终转凉″ 提交于 2020-04-17 19:57:04
     本文对百度被 ACL 接收的论文《PLATO:Pre-trained Dialogue Generation Model with Discrete Latent Variable》进行解读,相关工作通用领域对话生成预训练模型PLATO 已于去年10月份公布。   PLATO 是业界首个基于隐空间(Latent Space)的端到端的预训练对话生成模型。据悉,该模型利用隐向量来表示对话的潜在方向,从而达到对话内容丰富度和流畅度的显著提升。针对具体的对话任务,基于PLATO可以用少量数据训练得到非常流畅的对话系统。    作者 | 百度 NLP    编辑 | 丛末      论文地址:https://arxiv.org/abs/1910.07931   预训练模型及代码:https://github.com/PaddlePaddle/Research/tree/master/NLP/Dialogue-PLATO    1    引言   研发开放领域(Open-Domain)的对话机器人,使得它能用自然语言与人自由地交流,这一直是自然语言处理领域终极目标之一。   对话系统的挑战非常多,其中有两点非常重要,一是大规模开放域多轮对话数据匮乏; 二是对话中涉及常识、领域知识和上下文,因此在对话回复时,存在“一对多”问题。   比如这个例子“李雷:今天好冷啊,外面风好大。