自然语言处理

具有注意力机制的seq2seq模型

蓝咒 提交于 2020-08-11 09:02:31
作者|Renu Khandelwal 编译|VK 来源|Towards Data Science 在本文中,你将了解: 为什么我们需要seq2seq模型的注意力机制? Bahdanua的注意力机制是如何运作的? Luong的注意力机制是如何运作的? 什么是局部和全局注意力? Bahdanua和Luong注意力机制的关键区别 什么是注意力,为什么我们需要seq2seq模型的注意力机制 让我们考虑两个场景,场景一,你正在阅读与当前新闻相关的文章。第二个场景是你正在阅读准备考试。两种情况下的注意力水平是相同还是不同? 与新闻文章相比,你在准备考试时会相当注意阅读。在准备测试的时候,你会更加关注关键词来帮助你记住一个简单或复杂的概念。这也意味着我们要专注于某一特定领域的任何深度学习任务。 序列到序列(Seq2Seq)模型使用编码器-解码器架构 。 seq2seq的几个场景 神经机器翻译(NMT) 图像字幕 聊天机器人 文本摘要等 Seq2Seq模型将源序列映射到目标序列。在神经机器翻译的情况下,源序列可以是英语,目标序列可以是印地语。 我们将英语源语句传递给编码器;编码器将源序列的完整信息编码为单个实值向量,也称为上下文向量。然后,这个上下文向量被传递到解码器上,以生成目标语言(如印地语)中的输出序列。上下文向量负责将整个输入序列汇总为单个向量。 如果输入的句子很长

大数据技术包含哪些内容

戏子无情 提交于 2020-08-11 06:34:24
  大数据之所以受到了广泛的关注,一个重要的原因就是大数据开辟了新的价值领域,这一点是非常关键的。新的价值领域就会打造一系列生态体系,而生态体系又会孕育出大量不同的商业模式,而这个过程也会伴随着大量的创新,所以当前基于大数据的创业项目也非常多。大数据让互联网(物联网)上源源不断的数据拥有了价值,让整个社会对于互联网有了新的认知。大数据技术的相关岗位需求也越来越大,而今天我们就简单来了解一下,大数据技术都包含了哪些内容。   大数据技术都包含了哪些内容   一、数据采集   ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。   二、数据存取   关系数据库、NOSQL、SQL等。   三、基础架构   云存储、分布式文件存储等。   四、数据处理   自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguageUnderstanding),也称为计算语言学(ComputationalLinguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI

对话机器人,电商客服的救星

|▌冷眼眸甩不掉的悲伤 提交于 2020-08-11 05:28:54
摘要:24小时待命的人工客服有救星了。 网购最忙碌的除了电商平台的运维人员、物流配送人员,还有一批默默贡献的普通客服人员,消费者每发出一个请求,都需要客服及时有效的反馈,在像618这样的购物节中,电商企业的客服人员更是处于24小时待命中。 不过,智能客服和NLP文本处理的应用帮助很多企业提升了运营效率和客户体验,尤其是以华为云对话机器人为代表的一系列产品,正在为这些需要大量人工客服的企业降本增效。与此同时,越来越多的商业应用场景必将带动NLP语言理解和语言生成技术取得更多突破。 智能话务机器人 谷歌在其2018年I/O大会上演示了Duplex技术,让机器人使用几乎和真人无异的声音打电话到餐馆订位,和电话另一端的人类进行多轮互动。这个很吓人的技术在会后被广为传播。有人曾经想象,当这一技术成熟落地的时候,我们在见面聊天之后,可能会和对方说:“今天我们说的那个想法很棒,让我的机器人和你的机器人晚一点打个电话讨论具体的细节吧”。 这样科幻的想法,消费者可能还需要再多等一段时间。但是,对于企业来说,华为云2018年上线的智能话务机器人,已经在多个企业场景中,实现了机器人自动打电话和人类进行多轮互动。 典型的使用场景包括,自动外呼核实用户身份信息,回访客户满意度,了解候选人求职意向、查询订单状态物流信息、营销筛选意向客户以及各种类型的预约或预订服务等

Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记

守給你的承諾、 提交于 2020-08-11 04:57:12
Automatic Extraction of Personality from Text Challenges and Opportunities 阅读笔记 论文地址 https://ieeexplore.ieee.org/document/9005467/ 摘要 在这项研究中,我们研究了从文本中提取人格特质的可能性。我们通过让专家在来自多个在线来源的大量文本中注释个性特征来创建了一个大数据集。从这些带注释的文本中,我们选择了一个样本,并进行了 进一步的注释 ,得到了两个数据集 ( 一个是大型低可靠性的数据集, 另一个是小型高可靠性的数据集 )。然后我们使用这两个数据集来训练和测试几种机器学习模型,以从文本中提取个性。最后,我们对来自不同领域的野生数据集进行了评估。我们的结果表明,基于小型高可靠性数据集的模型比基于大型低可靠性数据集的模型表现更好。而且基于小型高可靠性数据集的语言模型的性能要优于随机Baseline方法。最后,结果表明,在野生数据集测试时, 我们最好的模型的性能没有比随机基准更好 。我们的结果表明,从文本中确定人格特征仍然是一个挑战,并且在野生数据集测试之前无法对模型性能做出明确的结论。 1. 介绍 THE BIG FIVE 模型, 把人的个性分为5种类型: 开放性(openness):具有想象、审美、情感丰富、求异、创造、智能等特质。 责任心

Adam优化算法详细解析

心已入冬 提交于 2020-08-11 04:52:42
http://www.atyun.com/2257.html Adam优化算法是一种对随机梯度下降法的扩展,最近在计算机视觉和自然语言处理中广泛应用于深度学习应用。在引入该算法时,OpenAI的 Diederik Kingma 和多伦多大学的 Jimmy Ba 在他们的2015 ICLR 发表了一篇名为“ Adam: A Method for Stochastic Optimization ”的论文,列出了使用亚当在非凸优化问题上的诱人好处,如下: 简单直接的实施 计算上讲究效率 小内存要求 不变量对梯度的对角线重新调节 非常适合于数据和/或参数方面的问题 适合非平稳的目标 适用于非常稀梳梯度的问题。 超参数具有直观的解释,通常需要很少的调谐。 Adam 如何工作? Adam与经典的随机梯度下降法是不同的。随机梯度下降保持一个单一的学习速率(称为alpha),用于所有的权重更新,并且在训练过程中学习速率不会改变。每一个网络权重(参数)都保持一个学习速率,并随着学习的展开而单独地进行调整。该方法从梯度的第一次和第二次矩的预算来计算不同参数的自适应学习速率。 作者描述Adam时将随机梯度下降法两种扩展的优势结合在一起。 具体地说: 自适应梯度算法(AdaGrad) 维护一个参数的学习速率,可以提高在稀疏梯度问题上的性能(例如,自然语言和计算机视觉问题)。 均方根传播(RMSProp)

客服领域应用RPA的3大典型场景

可紊 提交于 2020-08-11 04:44:26
客服领域应用RPA的3大典型场景 一、业务流程的自动化办理 1、业务痛点: 某大型电信运营商,在流程化业务办理方面存有痛点。在流量办理、话费办理、短信办理、增加或者取消业务等领域,客户办理套餐更改非常频繁,客服在处理这些业务时需要在系统间不断切换,增加了服务时长,不仅影响客户体验,还降低了企业服务效率。 2、RPA解决方案: 基于此场景,可以通过RPA机器人进行客服操作的采集和设定,对复杂业务进行分析,利用模拟和替代人工操作的技术,从而对业务流程的办理实现自动化操作。 借助RPA技术,并利用AI技术,帮助客服进行准确的问题答复和快速的问题查询。在呼叫中心任务中,将客户希望办理的业务经过自然语言理解后,直接提供给RPA执行,这对于缓解客服的接待压力是革命性的改变。 3、实施效果: 根据实际效果,在办理流量套餐更改的业务上,原先人工受理的方式大概需要70秒左右的时间进行操作,而采用RPA技术仅仅需要5秒,对于更加复杂的业务,实际效果越明显。使用RPA机器人,平均1个坐席的工作效率等于12个传统坐席的工作效率,这不论是对于企业还是客户都将带来巨大的收益。 二、知识库的自动查询 1、业务痛点: 知识库是客服系统必备的功能,很多大型企业都有内部的知识库。客服查询相关信息时需要到企业内部知识库进行查询,但是很多企业内部的知识库并不是同一个。 比如大型IT企业有解决方案知识库、法律条规知识库

开源开放的魅力:算法、框架、游戏AI,这有7个酷炫项目Demo

谁都会走 提交于 2020-08-11 04:10:27
  人工智能从 1956 年达特茅斯会议诞生以来,理论和技术发展迅猛。特别是在这波 AI 浪潮中,深度学习的崛起带领 AI 在产业领域的应用范围不断扩大。目前,人工智能已成为新一轮科技革命和产业变革的重要驱动力量,将对对未来人类社会生活带来深刻改变。   在 AI 技术高速发展的近几年,开源开放也成为了开发者社区的主流趋势,推动着整个技术的前进。在 AI 开发的过程中,我们已经习惯了开源框架、开源算法库、开源模型代码的存在,这也大大提高了 AI 开发者们学习、使用 AI 技术的效率。      为了展现人工智能领域的开放与创新,助力 AI 社区的发展,机器之心在今年的 WAIC 开发者日上就特设了「开源开放 Demo Day」环节,集中展示人工智能领域优秀的开源开放项目。   这次,我们邀请到包括中科院智能人脸画板算法、深度学习开源项目 TensorLayer、基于深度强化学习的 AI 游戏引擎 Delta、腾讯优图推断框架 TNN 在内的 7 个项目来做 demo,分享精彩内容,欢迎大家关注。   WAIC 开发者日「开源开放 Demo Day」将于 7 月 10 日 19:00—22:00 在线上举行,具体展示项目如下,欢迎大家添加文后的机器之心小助手(syncedai4)好友,加入交流群,一起看直播。    Demo 一:智能人脸画板的算法与实现      讲师简介:高林

cs224u 基于远程监督的关系抽取(4)

你离开我真会死。 提交于 2020-08-11 04:09:20
cs224u 基于远程监督的关系抽取(4) 目录 评估 数据切分 选择评估指标 运行评估 评估随机猜测策略 评估 在开始构建模型之前,建立一个测量模型性能的测试工具。 数据切分 根据数据构建模型时,最好将数据划分为多个部分,训练集用于训练模型,测试集用于评估模型。实际上,我们会划分为三部分: 测试集(1%)。在开发期间,划出一小块数据用于训练或测试数据通常是有用的。当然,通过对小数据集进行评估而获得的结果几乎是没有意义的,但是由于评估运行速度非常快,在代码迭代开发周期中清除bug,这是个好方法。 训练集(74%)。在开发期间和评估中使用大部分数据用于训练模型,可能需要更长的时间运行。 验证集(25%)。将使用dev切分作为测试数据,用于开发期间形成的评估。 这里切分数据集比其他NLP问题稍微复杂一些,因为我们同时拥有一个语料库和知识库。为了尽量减少训练数据到测试数据的信息泄漏,我们希望将语料库和知识库分开。为了最大化利用数据,我们尽可能紧密地对齐语料库分割和KB分割。在理想情况下,每个分割都有自己的实体,用于该分割的语料库将只包含提到这些实体的示例,用于该分割的知识库将只包含涉及这些实体的三元组。然而,这一理想情况在实践中并不能完全实现。为了尽可能接近,我们将按照这个计划: 首先,我们将在一些KB三元组中切片作为主题出现的实体集。 然后,我们将根据它们的主题实体切片这组KB三元组。

沃尔玛的产品知识图谱

那年仲夏 提交于 2020-08-11 04:02:07
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

使用 Amazon SageMaker 运行基于 TensorFlow 的中文命名实体识别

你说的曾经没有我的故事 提交于 2020-08-11 03:51:32
  一、背景   利用业内数据构建知识图谱是很多客户正在面临的问题,其中中文命名实体识别(Named Entity Recognition,简称NER)是构建知识图谱的一个重要环节。我们在与客户的交流中发现,现有的NER工具(比如Jiagu)对于特定领域的中文命名实体识别效果难以满足业务需求,而且这些工具很难使用自定义数据集训练。因此客户迫切想使用业内最先进的算法在行业内数据集上进行训练,以改进现有NER工具的不足。本文将介绍如何使用Amazon SageMaker运行基于TensorFlow的中文命名实体识别。   命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具。   英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。   二、中文命名实体识别算法   NER一直是自然语言处理(NLP)领域中的研究热点,从早期基于词典和规则的方法,到传统机器学习的方法,到近年来基于深度学习的方法,NER研究进展的大概趋势大致如下图所示。      早期的命名实体识别方法基本都是基于规则的