自然语言处理

词嵌入的经典方法,六篇论文遍历Word2vec的另类应用

谁说胖子不能爱 提交于 2020-08-12 06:46:23
  机器之心分析师网络    作者:王子嘉    编辑:Joni    在本文中,作者首先为读者普及了 word2vec 的基础知识,然后以六篇论文为示例详细介绍了当前研究如何利用经典 word2vec 进行拓展性研究。其中,作者重点介绍的部分是知识嵌入空间的生成过程,对于其完整应用感兴趣的读者可以参阅原论文。   随着深度学习的兴起,每个模型都需要一个输入,而我们现实生活中的对象(文字、图片)等等都不是数字,计算机无法处理。所以如何为每个任务确定一个合适的 “输入” 就变得尤其重要了,这个过程也被叫做表征学习。   word2vec 做的就是把文字变成对计算机有意义的输入,简单来说就是把这些东西映射到一个空间里,我们平时为了表示位置可能是三维空间,也就是 xyz,但是在图片啊、文本啊这种领域里,三维空间不太够,就可能去到另外一个 N 维空间,在这个空间里,就像三维空间里人的鼻子要跟嘴挨得近一样,我们也希望相似的东西在这个新的空间里也距离近,比如文本里的 “鼻子” 和“嘴”我们就也希望它们能挨得近一点,因为都属于五官,那么 “鼻子” 和“腿”就相对离得远一点。   顾名思义,word2vec 是把文字转换成计算机可以识别的输入,所以这个技术最开始应用、也是应用最多的地方就是自然语言处理领域(NLP)。其实在之前对于表征学习,我基于 ICLR 和 CVPR 做过两次 high

BlockChain:2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛》(四)

99封情书 提交于 2020-08-12 06:44:13
BlockChain:2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛》(四) 导读 : 数据人生,还原人性底色,造就可信任 2020年3月30日将数据作为生产要素,数据作为生产要素参与分配意义重大! “We can only see a short distance ahead, but we can see plenty there that needs to be done.”——Alan Turing 吾等目力短浅,能见百事待践行 区块链+人工智能:人工智能技术可以提高区块链智能合约运行效率、促进现实世界的应用程序变得更加智能 区块链+物联网:通过物联网设备+数字身份建立数字孪生世界,物理世界与虚拟数字世界相互促进 人工智能技术特征:生物特征识别+ML+NLP+CV+知识图谱 理性认识区块链:基础设施+非万能+非替代者 目录 2020年7月10日世界人工智能大会WAIC《链智未来 赋能产业区块链主题论坛》 演讲嘉宾 演讲内容 邢波《区块链,新引擎》 新型智慧城市 构建区块链产学研生态系统 数据人生,造就可信任 陆杨《Last Mile to Mass Adoptions -VeChain ToolChain》 达鸿飞《区块链如何构建数字信用枢纽》 2020年3月30日将数据作为生产要素 “We can only see a short

机器学习工程师将在十年后消失?

你离开我真会死。 提交于 2020-08-12 04:50:00
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近年来,机器学习工程师屡次荣登全球 IT 高薪榜单。但这局面会一直保持下去吗?作者 Luke Posey 给我们带来了一个不一样的观点,他认为,机器学习工程师将在十年后消失!这听起来有点耸人听闻,为什么他会做出这样的判断?读完这篇文章,或许你就找到答案了。 机器学习工程师将被取代 机器学习将会转变为每个软件工程师工具箱中的一部分,成为软件工程师常用的工具。 在每个领域中,我们在早期的阶段都会有专门的角色,随着时间的推移,这些专门的角色将会逐渐被普通的角色所取代。机器学习工程师似乎又是一个这样的例子。 机器学习工程师作为一个角色,是由人工智能和数据科学等热门词汇在企业中被大肆炒作的结果。在机器学习的早期阶段,机器学习工程师是一个非常必要的角色。而且对很多人来说,它带来了不错的收入增长!但是,机器学习工程师也有许多不同的性格,这要取决于你问的是谁。 我们当中的纯粹主义者说,机器学习工程师就是将模型带出实验室并投入到生产的人。他们负责扩展机器学习系统,将参考实现转化为可用于生产的软件,并经常交叉地进入数据工程领域。他们通常都是强大的程序员,对他们使用的模型也有一定的基础知识。 但这听起来很像是一个普通的软件工程师。 如果你去向一些顶尖的科技公司

沉思!知识图谱到底该何去何从?道翰天琼认知智能机器人API平台接口为您揭秘。

让人想犯罪 __ 提交于 2020-08-12 04:22:44
沉思!知识图谱到底该何去何从? 道翰天琼认知智能机器人API平台接口为您揭秘。 随着认知智能走进了人们的视野,知识图谱的重要性便日渐凸显。在今年的自然语言处理顶会 ACL 2020 上,自然语言知识图谱领域发生了巨大的革新。ACL 作为 NLP 领域的顶级学术会议,无疑能够很好地呈现该领域的研究风向。 本文作者Michael Galkin(计算机科学家,主要研究方向为知识图谱)从问答系统、知识图谱嵌入、自然语言生成、人工智能对话系统、信息提取等方面总结了 ACL 2020 上知识图谱最新工作。 AI 科技评论将这份总结编译如下: ACL 2020 完全采取了在线会议的模式。想要举办这么庞大的在线活动,让来自多个时区的参会者共同参与其中,并展示超过 700 篇论文是十分困难的。不过在所有讲者、参会者、组织者的努力下,这届大会得以圆满进行。那么与 ACL 2019 相比,知识图谱和自然语言处理领域发生了大的变化吗?答案是肯定的!我们将今年该领域的进展概括为: 知识图谱展现了更好地揭示其它非结构化数据中的高阶相关性的能力。 1 基于结构化数据的问答系统 在该任务中,研究者们面向 SPARQL 的知识图谱或 SQL 数据库这样的结构化数据源提出了问题。在今年的 ACL 大会上,我们可以看到越来越多考虑复杂(也被称为多跳)问题的工作。举例而言,Saxena 等人的论文「Improving

阿里定向广告新一代主模型:基于搜索的超长用户行为建模范式

孤者浪人 提交于 2020-08-12 03:45:06
阿里提出并实现了一套基于搜索范式的超长用户行为建模新方法Search-based user Interest Model(SIM),用于解决工业级应用大规模的用户行为建模的挑战。 对用户沉淀的海量历史行为数据进行充分的理解和学习, 是电商、信息流、短视频推荐这类强用户行为反馈驱动的应用中,近几年技术研发的关键方向,尤其是 CTR 模型这个领域,更是关键的胜负手。 以淘宝为例,大量的用户在网站上沉淀了长达数年甚至十几年的历史行为数据:平均每个用户每年产生的点击量超过了 10000,更不用提其中高频用户的活跃行为了。然而,如何建模这种超长行为序列的数据,学术界和工业界都还在早期阶段摸索。传统的如 LSTM、Transformer 等序列建模的技术,普遍适用于序列数据长度在 100 以内的情况,当序列长度提高一个数量级达到 1000 以上时,都会存在困难;此外,即使离线模型能够处理,如何将模型部署到实际生产系统,在时延和吞吐上都达到工业级标准,更是极具挑战的难题。 18 年我们团队研发上线、19 年在 KDD 上披露的 MIMN[1],是业界首个处理超长行为序列的工业级解决方案,其提出了一套能够对长达 1000 长度的行为序列数据进行训练和在线 serving 的整体解决方案。然而,MIMN 算法基于的是 memory network,在处理更大规模的序列数据时,容易被数据的噪声干扰

超级计算实现自然语言训练

狂风中的少年 提交于 2020-08-12 03:44:17
云栖号最佳实践:【 点击查看更多上云最佳实践 】 这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求! 场景描述 本实践适用于自然语言训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS 进行NLP的训练,采用Bert模型。这里不使用容器,直接使用裸机进行NLP的Bert训练,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。 解决问题 使用神龙 GPU 云服务器搭建 NLP 训练环境 使用 SCC 的 RDMA 网络 使用 CPFS 存储训练数据 使用飞天 AI 加速训练工具加速训练 产品列表 神龙云服务器 GPU (SCCGN6) 超级计算集群 SCC 共享存储 CPFS 直达最佳实践 》》 来源: oschina 链接: https://my.oschina.net/u/4295062/blog/4332200

基于情感词典的python情感分析

南楼画角 提交于 2020-08-12 03:41:39
近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析。于是在网上狂找资料,看相关书籍,终于搞出了这个任务。现在做做笔记,总结一下本次的任务,同时也给遇到有同样需求的人,提供一点帮助。 1、情感分析含义 情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌(hate),珍视(value),渴望(desire)等;或着简单的加权极性如积极(positive),消极(negative)和中性(neutral)并可用具体的权重修饰)、态度的范围分析(包含每句话,某一段、或者全文)。因此,情感分析的目的可以分为: 初级 :文章的整体感情是积极/消极的; 进阶 :对文章的态度从1-5打分; 高级 :检测态度的目标,持有者和类型。 总的来说, 情感分析就是对文本信息进行情感倾向挖掘 。 2、情感挖掘方法 情感挖掘目前主要使用的方法是使用情感词典,对文本进行情感词匹配,汇总情感词进行评分,最后得到文本的情感倾向。本次我主要使用了两种方法进行情感分析。第一种:基于BosonNLP情感词典

CVPR2020 | HAttMatting,让抠图变得如此简单!

落爺英雄遲暮 提交于 2020-08-12 03:40:38
     本文解读的是 CVPR 2020 论文《 Attention-Guided Hierarchical Structure Aggregation for Image Matting 》, 作者来自大连理工大学、大连大学、郑州大学,其中第一作者有两位,分别是博士生乔羽和硕士生刘宇豪。    作 者 | 刘宇豪    编辑 | 丛 末      论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Qiao_Attention-Guided_Hierarchical_Structure_Aggregation_for_Image_Matting_CVPR_2020_paper.pdf   项目地址:   https://xinyangdut.github.io/matting/Matting.html   https://wukaoliu.github.io/HAttMatting/      怎样实现既高质量又无需用户交互的图像抠图一直是学术界和工业界在努力追求的目标,近日,随着CVPR2020论文的正式公开,有这样一篇文章,在自动抠图领域又向前走了一步。下面,我们就来走进这篇文章。   图像抠图本身是一个病态的问题,公式如下所示:   给定一张RGB的彩色图 I,要求得一张表示像素不透明度的Alpha

错过就要再等一年,如何在大促中获得超低折扣全栈式 AI?

故事扮演 提交于 2020-08-12 01:50:56
618 大促正在火热进行中,大家在开心购物的同时,是不是也曾遇到过跟客服提问久久没答复,好不容易回复了又答非所问的情况? 客服作为连接企业与客户的桥梁,重要性不言而喻。但随着业务发展,客服咨询量不断提高,单纯地增加人工客服不仅成本高,顾客体验往往也无法得到有效保障。好在随着人工智能技术的发展,一些简单重复性的问题可以交给机器人客服解决,当遇到复杂咨询再由人工客服介入,这样就可实现客服峰值分流,大大减轻客服压力。 但普通机器人客服常常 “听不懂话” , “回答死板” ,或 “答案没用” , 沦为消费者吐槽的短板。那么,普通客服机器人该如何提高自己的“双商”呢? 京东智联云在语义理解、会话管理、情绪监控等人工智能技术领域不断取得突破,实现了智能客服意图识别能力的突破和共情能力的提升,让智能客服精准识别用户灵活多变的问法和情绪。通过情绪识别,能准确辨认用户情感,并生成对应带情感的回复,除了解决顾客咨询问题,还能做到 真正的知人心、解人意,对比普通客服机器人的回答,大幅提高用户满意率。 1 错过就要再等一年,全栈式AI 能力享超低折扣 如果你也想拥有这样善解人意的智能客服,现在机会来了: 这一套人工智能技术,京东智联云已经通过NeuHub平台向京东品牌供应商和外部企业全部开放。在“京东智联云 618 大促”的AI 产品专场中,企业用户可以享受超级折扣和超值服务购买这些AI 产品。文字识别

EMNLP今日截稿,组委会发文“提醒”审稿人什么论文不该被拒!

耗尽温柔 提交于 2020-08-11 21:52:12
      编译 | Mr Bear    编辑 | 丛末   今 天,EMNLP 还剩几小时就要正式截稿了,不少小伙伴们可能还在奋笔疾书地赶着最后几小时的 Deadline !   而提交投稿之后,等待大家的就是长达三个多月的审稿期了。在近年来顶会审稿“怪象”层出不穷的背景色下,各位投稿作者们对于今年 EMNLP 的审稿质量想必也是惴惴不安。   这不,不久前 EMNLP 组委会就专门向审稿人发布了一篇建议公告,指出审稿人应该做什么以及不应该做什么,并特别强调 “一篇论文的贡献可以是在效率、泛化能力、可解释性和许多其它的指标上有所进步。任何令人信服的贡献都不应该仅仅因为没有在某些指标上取得最高排名而被拒绝。”    以下为公告正文内容:   本文旨在为审稿人们提供一些建议,让我们可以找出最佳的研究工作,在 EMNLP 大会上展示它们,并且提出有建设性的反馈意见,使作者们能进一步改进它们的文章。我们高度赞赏审稿人们做出的大量贡献,希望让审稿工作更有益。我们希望所有的作者在阅读到针对其文章的同行评审意见时,能够改到醍醐灌顶。   本届 EMNLP 大会并不是首次试图培训审稿人的学术会议。在自然语言处理(NLP)和其它的领域中,许多重要的会议都曾经向审稿人给出建议,在学术期刊评审过程中也是如此。在 NLP 领域中,我们希望重点强调:   ACL 2017 上,NLP领域的领袖级研究者