知识图谱

美团BERT的探索和实践

馋奶兔 提交于 2020-04-20 08:23:09
他山之石,可以攻玉。美团点评NLP团队一直紧跟业界前沿技术,开展了基于美团点评业务数据的预训练研究工作,训练了更适配美团点评业务场景的MT-BERT模型,通过微调将MT-BERT落地到多个业务场景中,并取得了不错的业务效果。 背景 2018年,自然语言处理(Natural Language Processing,NLP)领域最激动人心的进展莫过于预训练语言模型,包括基于RNN的ELMo[1]和ULMFiT[2],基于Transformer[3]的OpenAI GPT[4]及Google BERT[5]等。下图1回顾了近年来预训练语言模型的发展史以及最新的进展。预训练语言模型的成功,证明了我们可以从海量的无标注文本中学到潜在的语义信息,而无需为每一项下游NLP任务单独标注大量训练数据。此外,预训练语言模型的成功也开创了NLP研究的新范式[6],即首先使用大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成具体NLP任务(分类、序列标注、句间关系判断和机器阅读理解等)。 图1 NLP Pre-training and Fine-tuning新范式及相关扩展工作 所谓的“预训练”,其实并不是什么新概念,这种“Pre-training and Fine-tuning”的方法在图像领域早有应用。2009年,邓嘉

《评人工智能如何走向新阶段》后记(再续23)

独自空忆成欢 提交于 2020-04-14 19:26:17
【推荐阅读】微服务还能火多久?>>> 364.DanielPovey领衔开发第二版语音识别开源工具Kaldi Kaldi集成了多种语音识别模型,包括隐马尔可夫和深度学习神经网络,被认为是世界语音识别框架的基石。 DanielPovey是著名的语音识别开源工具Kaldi的主要开发者和维护者,被称为Kaldi之父。 Daniel毕业于剑桥大学获语音识别博士学位。后来在IBM研究院、微软研究院负责计算机语音识别工作,2012年Daniel加入约翰霍普金斯大学担任语言和语音处理中心系主任,2019年12月初正式加入小米,成为小米首席语音科学家,负责下一代Kaldi开发工作,并将其融入小米的产品和服务的应用中。 语音识别技术发展至今已在工业、医疗、教育、金融等各行业落地,识别准确率达到95~97%。 如此看来语音识别系统准确率已经很高了,但实际上这种高精准度仅仅针对某些特定的语音类型,现阶段要让机器来识别人们日常交流还是比较困难的,尤其是当周围环境掺杂着噪声、音乐,且多人同时发声时。 Daniel加入小米后,领衔开发基于PyTorch的下一代Kaldi丰版本,并服务于小米的手机+AIoT双引擎战略,将第二版Kaldi融入到小米的产品和服务的应用中。 目前基于语音识别的人机交互系统开始大规模应用,语音识别领域的技术突破和应用落地指日可待! 365.神经拟态芯片模仿人脑运作机制

ICLR2020|受启诺奖研究,利用格网细胞学习多尺度表达(视频解读)

家住魔仙堡 提交于 2020-04-14 11:21:56
【推荐阅读】微服务还能火多久?>>>    作者 | 买庚辰    编辑 | 丛末   本 文对由美国加州大学圣巴巴拉分校 完成的,被ICLR 2020录用的论文《Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells》 进行解读。      论文:https://arxiv.org/pdf/2003.00824.pdf    论文简介:   目前,非监督语言编码模型加大的推进了自然语言处理技术的发展,他的核心理念就是根据词语在文章中的位置以及上下文关系使用神经网络把词语转化为向量空间表达,这个结果非常适合与多种下游的任务。 在空间分析领域,我们看到了非常相似的情况, GIS 学者注重于把地理对象(例如 POI )的绝对位置信息和周边环境信息加入模型当中,这意味着一个广义的(地理)空间表达模型会对众多任务都有帮助。   然而,除了简单的对空间进行分割或者直接把坐标输入前馈神经网络( FFN )的做法,目前不存在这样的广义空间表达模型,不仅如此也很少有学者研究如何同时对不同特征的空间分布进行总体建模,而这一情况经常在 GIS 数据中出现。   与此同时,我们注意到近期赢得 诺贝尔奖的神经科学研究发现,哺乳动物的格网细胞( grid cell

Nginx 是如何处理 HTTP 头部的?

我的梦境 提交于 2020-04-13 14:40:29
【今日推荐】:为什么一到面试就懵逼!>>> Nginx 处理 HTTP 头部的过程 Nginx 在处理 HTTP 请求之前,首先需要 Nginx 的框架先和客户端建立好连接,然后接收用户发来的 HTTP 的请求行,比如方法、URL 等,然后接收所有的 Header,根据这些 Header 信息,才能决定由哪些 HTTP 模块处理请求。下面这张图,解释了 Nginx 在处理 HTTP 请求之前,所经历的一系列流程,强烈建议收藏保存。下面针对每个部分单独讲解一下。 接收请求事件模块 首先是三次握手,当客户端发来 ACK 之后,由操作系统内核回一个 SYN+ACK,紧接着客户端 ACK 之后,连接建立成功。同时可能有很多 worker 进程都在监听 80 或 443 端口,由操作系统的负载均衡算法,选取一个 worker 进程来处理,这个 worker 进程会通过 epoll_wait 方法,返回一个建立连接的句柄。拿到了监听的句柄之后,这实际上是一个读事件(因为是从操作系统中读取到了一个请求),调用 accept 方法,分配连接内存池。 内存池主要分为连接内存池和请求内存池。 连接内存池大小的配置是 connection_pool_size ,到了这一步之后,Nginx 会为已经建立的连接分配一个 512 字节大小的连接内存池。分配完内存池,建立好连接之后,HTTP

Nginx 是如何处理 HTTP 头部的?

醉酒当歌 提交于 2020-04-13 11:44:44
【今日推荐】:为什么一到面试就懵逼!>>> Nginx 处理 HTTP 头部的过程 Nginx 在处理 HTTP 请求之前,首先需要 Nginx 的框架先和客户端建立好连接,然后接收用户发来的 HTTP 的请求行,比如方法、URL 等,然后接收所有的 Header,根据这些 Header 信息,才能决定由哪些 HTTP 模块处理请求。下面这张图,解释了 Nginx 在处理 HTTP 请求之前,所经历的一系列流程,强烈建议收藏保存。下面针对每个部分单独讲解一下。 接收请求事件模块 首先是三次握手,当客户端发来 ACK 之后,由操作系统内核回一个 SYN+ACK,紧接着客户端 ACK 之后,连接建立成功。同时可能有很多 worker 进程都在监听 80 或 443 端口,由操作系统的负载均衡算法,选取一个 worker 进程来处理,这个 worker 进程会通过 epoll_wait 方法,返回一个建立连接的句柄。拿到了监听的句柄之后,这实际上是一个读事件(因为是从操作系统中读取到了一个请求),调用 accept 方法,分配连接内存池。 内存池主要分为连接内存池和请求内存池。 连接内存池大小的配置是 connection_pool_size ,到了这一步之后,Nginx 会为已经建立的连接分配一个 512 字节大小的连接内存池。分配完内存池,建立好连接之后,HTTP

【云栖号案例 | 新零售】银泰上云 打造“从-1到0再到1”数字化成长逻辑

杀马特。学长 韩版系。学妹 提交于 2020-04-13 09:11:00
3 月,跳不动了?>>> 云栖号案例库: 【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 2018年以来,百货企业仍处在洗牌激荡时期,2019年上半年更不乐观。中国前几大百货企业都在探索新零售发展之路。中国连锁协会公布的2018年百货零售业增长榜单,银泰在20强中销售增长位居第一。仅仅杭州武林银泰百货化妆品区,一年可卖10个亿流水,21个单柜品牌,卖到全国第一。 目前,银泰的数字化转型和成长已经取得了令人瞩目的阶段性成果。新零售,是招一个电商副总裁就能解决的问题,还是需要从上至下基于数据彻底的升级转型?百货企业要固守“流量”、“体验”做零敲碎打的改进,还是以技术为基础实现凤凰涅槃的转型?对于转型方式,是用工具来解决局部问题,还是数字化商业操作系统来解决系统问题?这些疑惑,通过银泰的数字化成长似乎都有了新的思考方向。 2017年,阿里巴巴收购了银泰商业,并提出“从-1到0再到1”的整合和改造理念。所谓“-1至0”,是指“回归零售本质”,下沉到行业中去,深入剖析实体零售百货的业态、消费者关系,进行问题诊断,再反向推导解决方法,而不是强行照搬互联网的世界观和方法论;而所谓“从0到1”,则是指在回归零售本质的基础上,依托阿里巴巴强大的技术能力和商业生态,彻底改造现有的商业模式和服务等级,实现技术赋能、区域协同

清华ACL2020长文|KdConv:多领域知识驱动的中文多轮对话数据集

*爱你&永不变心* 提交于 2020-04-12 11:41:52
     ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,但因新冠肺炎疫情改为线上会议。ACL 2020共收到3429个投稿,是计算语言学领域首个投稿量超过3000的会议。4月3日,ACL 2020 正式公布录用论文。   清华大学人工智能研究院交互智能(CoAI)小组有三篇长文和一篇demo论文被ACL录用,两篇文章被TACL录用并将在ACL 2020展示。本文为其中 long papers 之一。    作者 | 周昊    编辑 | 贾伟      论文链接:https://arxiv.org/abs/2004.04100   数据和代码地址:https://github.com/thu-coai/KdConv   由于包含知识标注的多轮对话数据集的缺乏,知识驱动对话系统的研究在很大程度上受到了限制。   为了进一步推动多领域的知识驱动的多轮对话研究并且弥补中文语料的缺乏,我们提出了一个中文的多领域的知识驱动的对话数据集KdConv (Knowledge-driven Conversation),其使用知识图谱为多轮对话中使用的知识进行标注。   我们的语料库包含了来自三个领域(电影、音乐和旅游)的4.5K个对话,86K个句子,平均轮数为19.0。这些对话包含了相关话题的深度讨论,以及多个话题之间的自然过渡。   为了方便在这个数据集上的研究工作

知识图谱或成AI发展重点,投研数据整理耗时可从一周缩至一分钟

扶醉桌前 提交于 2020-04-10 13:19:01
近日,国内知名的市场调研机构艾瑞咨询集团发布了《中国知识图谱行业研究报告》。报告指出,2019年是知识图谱相关技术飞速发展的一年,其作为集大数据和AI于一身的综合技术,未来将成为重点关注领域。其中,在投研领域,知识图谱通过自动抓取和产业链的关系推理,可以将点状分布的零散数据快速关联,形成连锁价值。报告指出,京东数科的知识图谱产品能够帮助投研行业研究员将原本一周的数据收集和整理时间缩短为一分钟。 高成本和低效率,一直是传统投研工作的一大痛点。人工搜集,是传统投研行业中整理数据信息的主要方法,耗费时间和人力成本较高。而券商研报中的数据指标,有大约80%是无法从传统金融数据终端中直接查到的,研究员往往需要花费大量时间精力查找分散在各种文本中的数据:一个中小券商和私募行业的研究员,获取和整理一个行业相关数据需要1至2周的时间。就连大型券商和公募的数据体系,也难以覆盖投研所需的全部数据。对此,京东数科提出了以RPA流程替代人工,实现低成本高效率的解决方案。该解决方案使用自然语言处理技术和知识图谱技术,将分散在不同文本中的海量数据抽取出来,自动整理行业和企业数据,形成金融数据库,最后再以图表形式展示出来。该解决方案能够将行业研究员原本所需的一周数据收集和整理时间浓缩为一分钟,使得研究效率大幅提升,进而帮助提升决策效率。 除了传统投研人工作业的高成本和低效率外,结合舆情信息的预判类分析较少

人工智能新手入门学习路线和学习资源合集(含AI综述/python/机器学习/深度学习/tensorflow)

僤鯓⒐⒋嵵緔 提交于 2020-04-10 09:01:31
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 1. 分享个人对于人工智能领域的算法综述: 如果你想开始学习算法,不妨先了解人工智能有哪些方向? 1.1 机器学习综述 1.2 深度学习综述 1.3 强化学习综述 1.4 知识图谱综述 1.5 对接其他前沿技术 2. 分享个人对于新手入门学习路线和学习资源的推荐 2.1 python编程学习路线及笔记 2.2 机器学习专题学习路线及笔记 2.3 深度学习专题学习路线及笔记 2.4 tensorflow编程学习路线及笔记 如果你是计算机专业的本科生,欢迎浏览我的另外一篇博客: 如果你是一个计算机领域的本科生,你可以选择学习什么? 如果你是计算机专业的研究生,欢迎浏览我的另外一篇博客: 如果你是一个计算机领域的研究生,你可以选择学习什么? 如果你是计算机专业的应届毕业生,欢迎浏览我的另外一篇博客: 如果你是一个计算机领域的应届生,你如何准备求职面试? 如果你对金融科技感兴趣,欢迎浏览我的另一篇博客: 如果你想了解金融科技,不妨先了解金融科技有哪些可能? 之后博主将持续分享各大算法的学习思路和学习笔记: hello world: 我的博客写作思路 来源: oschina 链接: https://my.oschina.net/u/4369820/blog/3227342

周六直播报名丨文因互联CEO鲍捷:RPA如何从1.0走到4.0时代?

血红的双手。 提交于 2020-04-09 20:11:08
​当提起RPA,你会想起按键精灵,想起自动搬运和分析数据的程序。 在文因互联CEO鲍捷看来,这是RPA的1.0和2.0时代,即是对手和对脑的自动化,由自动化体力劳动向自动化脑力劳动转变。 但RPA显然不会停留在这样的初级形态,它的升级版本会是怎样的?对企业自身和RPA行业而言又意味着什么? 鲍捷曾在采访中表示,“流程自动化不光只是某个特定业务环节的优化,还有各种传统企业流程之间的打通——只要是有传统企业流程,有IT系统的地方,都会自动化的。” “(机器做流程性工作)这个趋势,我相信,每个赛道都会发生这样的变化,十年之内不会停下来。” 在这样的趋势下,我们更需要一把精确锋利的手术刀,深度剖析RPA。 4月11日,文因互联CEO、联合创始人鲍捷将带来更全面专业的解读,细述RPA从 1.0 到 4.0 的关键升级路径。 如何收听? 关注公众号「 AI金融评论 」,在公众号对话框回复关键词“ 听课 ”,即可进群观看直播。 若无法进群,请添加微信: LorraineSummer 申请进群。 直播信息 时间:4月11日(周六)20:00-21:00 主讲人:文因互联CEO、联合创始人 鲍捷 主题:从 RPA 1.0 到 RPA 4.0,知识产业流程自动化的关键路径 分享提纲 RPA1.0:自动化手,结构化数据数据应用间自由迁移 RPA2.0:自动化手,数据类型全覆盖后的智能建模分析 RPA3