自然语言处理

BERT在美团搜索核心排序的探索和实践

纵饮孤独 提交于 2020-08-08 23:55:21
为进一步优化美团搜索排序结果的深度语义相关性,提升用户体验,搜索与NLP部算法团队从2019年底开始基于BERT优化美团搜索排序相关性,经过三个月的算法迭代优化,离线和线上效果均取得一定进展。本文主要介绍探索过程以及实践经验。 引言 美团搜索是美团App上最大的连接人和服务的入口,覆盖了团购、外卖、电影、酒店、买菜等各种生活服务。随着用户量快速增长,越来越多的用户在不同场景下都会通过搜索来获取自己想要的服务。理解用户Query,将用户最想要的结果排在靠前的位置,是搜索引擎最核心的两大步骤。但是,用户输入的Query多种多样,既有商户名称和服务品类的Query,也有商户别名和地址等长尾的Query,准确刻画Query与Doc之间的深度语义相关性至关重要。基于Term匹配的传统相关性特征可以较好地判断Query和候选Doc的字面相关性,但在字面相差较大时,则难以刻画出两者的相关性,比如Query和Doc分别为“英语辅导”和“新东方”时两者的语义是相关的,使用传统方法得到的Query-Doc相关性却不一致。 2018年底,以Google BERT[1]为代表的预训练语言模型刷新了多项NLP任务的最好水平,开创了NLP研究的新范式:即先基于大量无监督语料进行语言模型预训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成下游的NLP任务(文本分类

阿里云服务器 debian9 apache2 部署flask+wsgi 过程总结

冷暖自知 提交于 2020-08-08 19:18:59
由于阿里云镜像自带的源更新比较缓慢,最新的python3版本还是3.5,而我的代码使用的库需要python3.6+,因此需要先更新debian源: vim /etc/apt/sources.list 在其中添加: deb http://mirrors.163.com/debian/ testing main 执行: apt-get update apt-get install python3.6 python3.6-dev python3.6-distutils apt-get install python-pip 安装wsgi: sudo apt-get install libapache2-mod-wsgi-py3 在/etc/apache2/sites-available中新建flask.conf文件,在其中输入: WSGIPythonPath /var/www/html/flask <VirtualHost *:80> # The ServerName directive sets the request scheme, hostname and port that # the server uses to identify itself. This is used when creating # redirection URLs. In the context of

斯坦福Machine Learning with Graphs 学习笔记(第一讲)

百般思念 提交于 2020-08-08 15:42:06
作者: 林夕 本文长度为 2900字 ,建议阅读 9分钟 本文为大家介绍图网络的基本概念、网络的应用以及图的结构。 目录 一、Why Networks 二、网络的应用 2.1 应用领域 三、图的结构 3.1 网络表示的选择 3.2 点的度(Degree) 3.3 图的表示方式 邻接矩阵(Adjacency Matrix) 边列表(Edge list) 邻接列表(Adjacency list) 3.4 图的连通性 参考资料 最近我们小组开始整理CS224W机器学习图网络的一些笔记,这是第一课对应的PPT。 课程相关PPT链接: http://web.stanford.edu/class/cs224w/slides/01-intro.pdf 一、Why Networks 第一部分简单介绍下关于图网络的一些基本定义,应用和意义。 网络的定义: 网络是描述一系列交互实体的复杂系统的一种通用语言。 网络(Network)和图(Graph)的一些区别: 网络 通常指真实的系统,eg.互联网、社交网络、信息网络、代谢网络、常用的表达有网络、节点、关系等; 图是网络的数学表达方式 ,比如互联网图谱、社交图谱、知识图谱、场景图、分子图(分子预测模型)。常用表达有图、顶点、边等词; 网络的概念比图的概念总体来看会大一点 ,但是总的来说network和graph区别也是比较模糊的,在实际中

GAITC专题论坛丨张俊林:AI时代下大规模机器学习的应用

偶尔善良 提交于 2020-08-08 12:54:42
  7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。    新浪微博机器学习团队AI Lab负责人张俊林本次专题论坛上,与来自业界、学术界的嘉宾们分享了《机器学习在微博的应用》。      图注:新浪微博机器学习团队AI Lab负责人张俊林作主题演讲。    张俊林提到,在新闻场景中,或者微博场景中,实时模型的在线学习非常重要。用户兴趣可能会非常快速的发展变化,尤其是在视频的场景下。作为机器学习模型,如何更快捕获到用户行为、兴趣的变化?如果把兴趣点体现到模型中,并实时更新,那么再做下一刷的时候,新兴趣可能就体现出来,这就是所谓的实时模型。    他认为,在当前日益激烈的竞争环境下,以大数据+深度模型的新技术对于推动用户进一步增长非常重要。    以下为张俊林演讲实录,内容经编辑略有删减:    尊敬的各位嘉宾,网上的朋友大家好,首先我个人非常感谢论坛主席能够提供这么好的机会让我来给大家分享一下人工智能在微博中的应用。    大家都知道,新浪新闻和新浪微博,应该说是我们公司在AI时代下大环境的变迁情况下两个典型的个性化的应用。在这种个性化的推荐场景下

2020年后疫情时代人工智能的发展趋势

北城以北 提交于 2020-08-08 12:27:12
人工智能的发展经历了2016年AlphaGo打败人类后的狂热、2018年由于实际落地困难带来的失望、2019年Deepfake假视频等伦理问题显现,过去一年开始进入稳步落地阶段。在全球抗疫的大背景下,我们看到,医疗影像辅助诊断、服务机器人、新药开发等AI在医疗场景的应用未来有望加速。与此同时,随着健康码等联系人追踪应用的普及,以及国家明确数据成为数字经济时代生产要素,如何规范和促进数据使用成为发展人工智能的重要课题。我们认为,除了加速大数据立法以外,联邦学习、隐私计算等技术手段的普及也是加速后疫情时代人工智能发展的重要一环。 AI投资向中后期转移,或将迎来上市潮 随着AI技术和商业模式的逐渐成熟,我们看到2017年以来中国AI行业私募股权投资中,早期投资频次比例逐年下降、中后期投资比例则逐步提升,同时投资开始向头部的成熟企业集中,投资颗粒度不断变大。整体来看,资金主要投向计算机视觉、自然语言处理等技术,以及企业服务、机器人等应用场景。而2019年以来,我们看到AI投资更加关注芯片、服务机器人等硬件,以及企业数字化转型、工业互联网、零售等新场景。我们相信,随着科创板改革的深化,AI企业上市融资的政策条件已趋于成熟,AI公司或将在不久的将来迎来上市潮。 疫情期间,我们看到 AI请添加链接描述 已经在诊前、诊中、诊后全阶段中发挥重要作用:1)诊前:红外测温仪高效筛查体温异常者

中国AI青年科学家:当天才遇上烟火气

寵の児 提交于 2020-08-08 10:06:05
  本文转载自公众号南方人物周刊(ID:Peopleweekly)文 | 吴绵   “这是一件正确的事,但不是一个故事,大部分人不理解。”姚颂认识到,要学会寻找“正确的非共识”,尤其是在 AI 这样快速变化的领域。   新闻和资本捧起了 AI 风口,学术界的人在喧嚣中架起安静的书桌,工业界的人在泡沫中摸石头过河。MSRA 走出来的三人,都找到了自己在 AI 界的坐标。   5 月,上海商场四处是“五五购物节”的促销海报。全民消费浪潮下,朱明杰不忘和海外的朋友分享薅羊毛心得。十分钟后,他把朋友拉进了“MJ 和他的朋友们一起拼多多”微信群。   作为深度网购用户,朱明杰和今天的中国消费者们在手机上看到什么、买到什么,会如何在技术的指引下走向未来生活,从某种意义上说,正是由他自己,以及和他一样的科学家们对算法的突破所决定的。   6 月 16 日,朱明杰和他的前同事卢策吾等 15 位中国 AI 科学家、创业者,在《Nature》机器智能子刊联名发表了一篇论文,讨论人工智能在中国的应用和前景。这篇文章在国际科技界引发了诸多讨论,被称为“中国青年科学家的集体亮相”。   三年前,《麻省理工科技评论》首次针对中国评选了 35 岁以下的未来科技创新领军人物,这大概是西方世界最早开始好奇中国的这群“天才科学家”。   在西方媒体看来,中国正在成长中的这群青年人与上一辈有诸多不同。而这些不同

PyTorch实现用于文本生成的循环神经网络

馋奶兔 提交于 2020-08-08 08:30:26
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 自然语言处理(NLP)有很多有趣的应用,文本生成就是其中一个有趣的应用。 当一个机器学习模型工作在诸如循环神经网络、LSTM-RNN、GRU等序列模型上时,它们可以生成输入文本的下一个序列。 PyTorch提供了一组功能强大的工具和库,这些工具和库为这些基于NLP的任务增添了动力。它不仅需要较少的预处理量,而且加快了训练过程。 在本文中,我们将在PyTorch中训练几种语言的循环神经网络(RNN)。训练成功后,RNN模型将预测属于以输入字母开头的语言的名称。 PyTorch实现 这个实现是在Google Colab中完成的,其中的数据集是从Google驱动器获取的。所以,首先,我们将用Colab Notebook安装Google驱动器。 from google.colab import drive drive.mount('/content/gdrive') 现在,我们将导入所有必需的库。 from __future__ import unicode_literals, print_function, division from io import open import glob import os import unicodedata import string import

人工智能产业发展深度报告:格局、潜力与展望

╄→гoц情女王★ 提交于 2020-08-08 07:42:09
人工智能(Artificial Intelligence,AI)是利用机器学习和数据分析方法赋予机器模拟、延 申和拓展类人的智能的能力,本质上是对人类思维过程的模拟。AI 概念最早始于 1956 年 的达特茅斯会议,受限于算法和算力的不成熟,未能实现大规模的应用和推广。近年来, 在大数据、算法和计算机能力三大要素的共同驱动下,人工智能进入高速发展阶段。据中 国电子学会预测,2022全球人工智能市场将达到1630亿元,2018-2022年CAGR达31%。 人工智能赋能实体经济,为生产和生活带来革命性的转变。人工智能作为新一轮产业变革 的核心力量,将重塑生产、分配、交换和消费等经济活动各环节,催生新业务、新模式和 新产品。从衣食住行到医疗教育,人工智能技术在社会经济各个领域深度融合和落地应用。同时,人工智能具有强大的经济辐射效益,为经济发展提供强劲的引擎。据埃森哲预测, 2035 年,人工智能将推动中国劳动生产率提高 27%,经济总增加值提升 7.1 万亿美元。 多角度人工智能产业比较 目前,全球人工智能产业的生态系统正逐步成型。依据产业链上下游关系,可以将人工智 能划分为基础支持层、中间技术层和下游应用层。基础层是人工智能产业的基础,主要提 供硬件(芯片和传感器)及软件(算法模型)等基础能力;技术层是人工智能产业的核心, 以模拟人的智能相关特征为出发点,将基础能力转化成人工智能技术

沃尔玛的产品知识图谱

若如初见. 提交于 2020-08-08 07:25:17
作者|Karthik Deivasigamani 编译|VK 来源|Medium 介绍 电子商务目录是通过从卖家、供应商/品牌获取数据而创建的。合作伙伴(销售商、供应商、品牌)提供的数据往往不完整,有时会遗漏我们客户正在寻找的关键信息。尽管合作伙伴遵循一个规范(一种发送产品数据的约定格式),但在标题、描述和图像中隐藏着大量数据。除了我们的合作伙伴提供的数据外,互联网上还有许多非结构化数据,如产品手册、产品评论、博客、社交媒体网站等。 沃尔玛正致力于构建一个零售图谱(Retail Graph),捕捉有关产品及其相关实体的知识,以帮助我们的客户更好地发现产品。它是一个产品知识图谱,可以在零售环境中回答有关产品和相关知识的问题,可用于语义搜索、推荐系统等。本文进一步阐述了什么是零售图谱、如何构建零售图谱、围绕图模型的技术选择、数据库和一些用例。 沃尔玛的零售图谱是什么 零售图谱捕获了零售世界中存在的产品和实体之间的连接。实体是存在的物体、事物、概念或抽象,例如客厅、野生动物摄影、颜色、农舍风格。我们关注的实体大致有两种:抽象的和具体的。前者帮助我们回答诸如“夏日游泳池派对用品”、“农家客厅家具”、“野生动物摄影镜头”之类的问题,而后者帮助我们回答诸如“蓝色牛仔裤裤子”、“木制餐桌”之类的问题。该图谱还将产品之间的关系捕获到两个类别,替代品和补充品(附件、兼容产品等)。它还试图将抽象概念

3小时极致学习AI开发,WAIC开发者日有一堂必上公开课

余生颓废 提交于 2020-08-08 01:48:50
​​2020 年,人工智能商业化落地全面加速。百度,作为国内人工智能领军企业,围绕最早开源的自研 AI 框架 飞桨 ,在人工智能开发领域有着长期高强度的投入。 今年 5 月份的「WAVE SUMMIT 2020」深度学习开发者峰会上,百度 飞桨 发布包括端到端图像分类开发套件 Paddle Clas 在内的 7 项开源新品、23 项重要升级,全面助力开发者进行人工智能开发。 除了全新发布,面向中小企业, 飞桨 企业版 EasyDL 全新升级,预置丰富网络和模型,提供零门槛、便捷高效的开发。对企业开发者而言,EasyDL 可谓是一站式开发利器。 在 EasyDL 开发平台之外,2017 年百度 AI 开发者大会上也曾发布对话系统定制平台 UNIT,搭载了业界领先的对话理解与对话管理技术,可以帮助开发者赋予产品智能对话的交互能力。2019 年,UNIT 升级到 3.0 版本,提供强大的智能对话解决方案。 纵深布局人工智能技术十数年,开发者一直是百度极为重视的力量。当前百度 飞桨 累积开发者数量已超过 190 万,服务企业数量达到 84000 家,发布模型数量已超过 23 万个。 为了更好的服务广大开发者,帮助大家快速学习掌握人工智能技术。在今年 WAIC 开发者日期间,机器之心将联合百度组织「开发者日百度公开课」,为广大开发者提供 3 小时极致学习机会,从 NLP、CV 到零门槛 AI