自然语言处理

阿里定向广告新一代主模型:基于搜索的超长用户行为建模范式

最后都变了- 提交于 2020-08-15 23:14:16
  机器之心发布    机器之心编辑部    阿里提出并实现了一套基于搜索范式的超长用户行为建模新方法Search-based user Interest Model(SIM),用于解决工业级应用大规模的用户行为建模的挑战。      对用户沉淀的海量历史行为数据进行充分的理解和学习, 是电商、信息流、短视频推荐这类强用户行为反馈驱动的应用中,近几年技术研发的关键方向,尤其是 CTR 模型这个领域,更是关键的胜负手。   以淘宝为例,大量的用户在网站上沉淀了长达数年甚至十几年的历史行为数据:平均每个用户每年产生的点击量超过了 10000,更不用提其中高频用户的活跃行为了。然而,如何建模这种超长行为序列的数据,学术界和工业界都还在早期阶段摸索。传统的如 LSTM、Transformer 等序列建模的技术,普遍适用于序列数据长度在 100 以内的情况,当序列长度提高一个数量级达到 1000 以上时,都会存在困难;此外,即使离线模型能够处理,如何将模型部署到实际生产系统,在时延和吞吐上都达到工业级标准,更是极具挑战的难题。   18 年我们团队研发上线、19 年在 KDD 上披露的 MIMN[1],是业界首个处理超长行为序列的工业级解决方案,其提出了一套能够对长达 1000 长度的行为序列数据进行训练和在线 serving 的整体解决方案。然而,MIMN 算法基于的是 memory

订单少落地难:被误解的人工智能

被刻印的时光 ゝ 提交于 2020-08-15 18:33:29
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 文 | 特约观察员 顾夏辉 安涛 编辑 | 刘子晴 人工智能落地现状 2020年人工智能依然是一个非常热的话题。中美的科技巨头以及很多跨国企业都把人工智能作为其战略发展的重要布局,国家层面也出台政策重点发展人工智能产业。2019年,中国人工智能专利申请量排行世界第一,累计申请量44万余件,中国已超过美国成为人工智能领域专利申请量最高的国家。 但是与公众关注和各方支持的力度相比,人工智能技术的落地速度并没有达到人们的预期。目前人工智能集中于新零售、智能制造、智慧农业、医疗健康、智慧城市、营销和教育等产业,超过50%的赋能实体为安防。预计到2022年,人工智能赋能实体经济仅能达1600亿。对于40万亿的市场而言,人工智能还远远没有落地。 如何才能加快人工智能的落地速度?在这个问题之前,首先要明确人工智能技术是否重要、重要到什么程度。 人工智能带给我们的是什么? 一句话,科技带给人类发展的核心是对资源的优化。 蒸汽机的出现,使机器代替了手工劳动,一部分人从重复劳动解放出来,转为管理、运营和科研工作;电力的出现,推动企业间竞争的加剧,促进生产和资本的集中,产生了垄断;互联网的出现,使得人们节省大量获得信息的资源,整合企业的管理和策略工作。 如果人类想继续进行对资源和成本优化

【CS224n】ConvNets for NLP

断了今生、忘了曾经 提交于 2020-08-15 13:26:56
1. CNNs (Convolutional Neural Networks) 我觉得下述过程可以直接用textCNN的这个流程图来表达,清晰明了。所以,直接对着该图看下面的各个步骤会更简单一些。 1.1 Why CNNs? 为什么要再文本中使用卷积神经网络(CNN)呢?CNN通过卷积的方法,并使用不同大小的卷积核,可以捕捉到句子中不同长度短语的语义信息。 1.2 What is Convolution? 卷积操作大家应该都比较熟悉了,如下图,大矩阵为原始二维矩阵(如原始图片信息),红色的小矩阵为卷积核(图中为 3 × 3 3\times 3 3 × 3 矩阵);卷积操作:卷积核与原矩阵的相同大小的矩阵,对应点分别相乘,然后累加的过程。 1.3 A Single-Layer CNN 如下图,为单层的CNN。该结构的卷积核宽度为3,即每次对三个词做卷积操作。此时最后两个词没法做卷积,因此可以在最后词的后面添加2个零向量(具体数量为h-1,h为卷积核宽度),次即为padding操作。需要注意的是,在文本数据中使用CNN,一般都指的是一维卷积,即卷积核的长度必须跟词向量的维度一致(对词向量拆开做二维卷积没有意义,因为词向量的所有维度共同表示一个词)。 1.4 Pooling 进行卷积操作后,我们要进行pooling操作,目的是解决不同输入长度而导致输出长度不一致的问题

连续四年万人参赛,腾讯广告算法大赛逆算赛题火了,冠军:我用BERT

陌路散爱 提交于 2020-08-15 13:26:11
  机器之心报道    编辑:泽南    「逆算」赛题 + 百万奖池,腾讯广告算法大赛已经成为了全球最受瞩目的算法赛事。   在国内机器学习领域里,有这样一个享有盛名的数据竞赛,虽然每年仅举办一届,但每届都能吸引上万名技术人前来参加,它奖金丰厚,评委阵容豪华,还提供优质的计算资源供选手使用。   它就是腾讯广告算法大赛,这场全球最受瞩目的算法盛事今年已经举办到了第四届。      腾讯广告副总裁蒋杰为 2020 腾讯广告算法大赛决赛致辞。   今年的腾讯广告算法大赛早在开赛之前就吸引了颇多技术圈层的期待和关注,加上全新升级的赛制、加码奖金池和顶级评委阵容的加持,自 4 月 15 日正式开赛以来,比赛吸引了来自超过 1,000 所国内外院校和 3,000 家企事业单位的 11,000 + 人报名,这一数字超过同类算法竞赛 2 倍以上。   毫不夸张地说,腾讯广告算法大赛已经成为了全球最受瞩目的算法竞赛之一。   当前,大数据技术与应用逐渐成为营销链路上不可或缺的一环,随之衍生的数据竞赛也成为了各家企业探索前沿课题、吸纳人才的重要方式之一。本届腾讯广告算法大赛则另辟蹊径,针对广告行业的经典假设,出具了一道 「逆向思维」 的全新赛题。   与此同时,腾讯广告算法大赛的奖金纪录也再度自我超越,总奖池近百万人民币,冠军奖金约 50 万人民币,这也引来「无数技术英雄竞折腰」。    从结果

(含源码)「自然语言处理(QA)」基于常识的对话生成&&多任务学习(MTL)&&多实例学习&&结构化语义表示

橙三吉。 提交于 2020-08-15 13:21:26
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 本次分享的论文都是 Question Answering 相关~~ 引言 本文主要偏向于开放式对话,其主要内容包括:基于 常识知识的对话生成模型 、基于 多视角注意力 的学习方案(多任务学习)、俄罗斯开放知识问答库RuBQ、多语言QALD流程、基于BERT的 JarvisQA 系统、基于 多实例学习 方法、 结构化的语义 表示协助问答系统调试等 。 (四篇含源码) 微信下载论文不方便,你可以直接回复: QA009 进行打包下载 。 资料整理不易, 最后 帮作者 点个赞 、 点个在看 吧,谢谢~~ 往期QA系列论文 : (含源码)Question Answering(QA)论文整理(一) (含源码)Question Answering(QA)论文整理(二) (含源码)Question Answering(QA)论文整理(三) (含源码)Question Answering(QA)论文整理(四) (含源码)Question Answering(QA)论文整理(五) (含源码)Question Answering(QA)论文整理(六) (含源码) Question Answering(QA)论文整理 (七) (含源码) Question Answering(QA)论文整理 (八) 正文开始 1 First Blood 1

关于2020年度吴文俊人工智能科学技术奖提名工作的通知(第二轮)

喜你入骨 提交于 2020-08-15 11:08:15
      各有关单位、专家:   根据《关于深化科技奖励制度改革的方案》(国办函﹝2017﹞55号)的精神,按照《吴文俊人工智能科学技术奖励条例》及其实施细则、《吴文俊人工智能科学技术奖提名制实施办法(试行)》(附件1)等有关规定,为全面实施创新驱动发展战略,激励和引导广大科研人员大力弘扬科学家精神,通过推荐选拔优秀的智能科学技术成果和产业化项目,切实调动我国智能科技领军人才的积极性和创造性,大力提升智能科学技术与产业化应用发展水平,发挥人工智能技术在各行业领域的赋能作用,奖励在人工智能科学研究活动中做出突出贡献的单位和个人,更好的为广大智能科技工作者和全体会员服务,中国人工智能学会2020年度“吴文俊人工智能科学技术奖”[国科奖社证字第0218号]提名工作的通知(第二轮)现正式发布。因受新冠肺炎疫情影响,吴文俊人工智能科学技术奖的提名申请、网络填报及纸质材料提交的时间相应延缓。“吴文俊人工智能科学技术奖”是我国智能科学技术领域最高奖,每年设有200万元人民币奖金,具备提名、推荐国家科学技术奖资格。请各地方人工智能学会、协会(联盟)、高校科研院(处)及人工智能研究院(学院);学会各分支机构、团体会员单位和同领域学者专家加大宣传力度,认真组织提名工作,现将有关事项通知如下。    一、提名要求    (一)专家提名   1、吴文俊人工智能最高成就奖   (1

ACL2020预训练语言模型部分开源代码整理

百般思念 提交于 2020-08-15 07:43:26
目前ACL2020正在线上开会,刘聪同学 @刘聪NLP 整理了ACL2020中预训练语言模型部分开源代码,有论文,有代码。 而且本仓库还整理了ACL2019,ACL2020,EMNLP2019,NAACL2019中有代码开源的所有论文,代码下载地址。 https://github.com/yizhen20133868/NLP-Conferences-Code ​ github.com 希望对大家有所帮助 :) 后续我们还会持续更新NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集,同时欢迎各位同学提交issue,分享开源项目。 https://github.com/yizhen20133868/NLP-Conferences-Code ​ github.com 来源: oschina 链接: https://my.oschina.net/u/4283164/blog/4339794

视频搜索太难了!阿里文娱多模态搜索算法实践

笑着哭i 提交于 2020-08-15 07:10:42
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 视频搜索是涉及信息检索、自然语言处理(NLP)、机器学习、计算机视觉(CV)等多领域的综合应用场景,随着深度学习在这些领域的长足进展以及用户对视频生产和消费的广泛需求,视频搜索技术的发展在学术和工业界都取得了飞速的发展。 阿里文娱高级算法专家若仁在 GMIC 2020 分享了视频搜索技术和多模态在视频搜索领域的应用,本文整理自演讲速记,希望能给关注或从事视频搜索方向的算法同学带来启发。 考虑到大家来自不同的业务领域和技术方向,我会先简单介绍优酷视频搜索的业务背景,同时快速介绍搜索的基本评估指标、搜索系统的算法框架以及相关性和排序模型,让大家对视频搜索有一个更全面的认识,后面重点介绍多模态视频搜索相关技术。 阿里文娱搜索现状 搜索团队为整个阿里文娱提供一站式的搜索服务,服务范围包括优酷 Phone 和 OTT 端,还包括大麦、淘票票。涉及的检索内容,从影剧综漫的长视频影视库,到覆盖社会各领域的 UPGC 视频。此外,影人和演出场馆也在搜索服务覆盖范围内。以优酷为例,我们有数亿视频资源,不仅包括平台购买了版权的 OGC 视频,更多是用户上传的 UPGC 视频。视频的存储、计算以及分发,比文字更具挑战。 搜索技术的用户价值主要体现在两个维度: 一是工具属性。

pyltp实现NER以及实体统计

∥☆過路亽.° 提交于 2020-08-15 07:09:56
pyltp实现NER以及实体统计 人工智能火热,NLP技术也蓬勃发展,今天主要讲述NLP中的一项基础任务NER的实现。 首先介绍一下NER(命名实体识别,Named-entity recognition)是NLP的一项子任务,旨在实现从文本中抽取实体,实体一般包括:人名,地名,机构名,数量表达式,时间表达式等。在特定的领域,实体也会有所差异,比如:生物医学,研究实体就可以是药名,病名。 目标:实现基础的NER需要得到实体种类下的实体。 借助工具:哈工大LTP 哈工大LTP 怎么去使用LTP? python3.6+pyltp+ltp_data_v3.4.0 (1)pyltp的使用 a.配置好相应的python环境 b.安装pytlp(命令行:pip install pyltp),安装超时可以镜像下载或者下载好wheel文件本地安装 c.下载模型文件,我使用的版本为ltp_data_v3.4.0,下载地址: 模型下载地址 (2)实现NER 准备工作做好后,我们就可以选取测试文本,实现NER,代码如下: #write by heheyang # -*- coding: utf-8 -*- import os from pyltp import * LTP_DATA = 'ltpdata path' #LTPdata的根目录 # 分词 def wordscut ( text ) :

【Model Log】模型评估指标可视化,自动画Loss、Accuracy曲线图工具,无需人工参与!

天大地大妈咪最大 提交于 2020-08-15 05:32:06
1. Model Log 介绍 Model Log 是一款基于 Python3 的轻量级机器学习(Machine Learning)、深度学习(Deep Learning)模型训练评估指标可视化工具,与 TensorFlow、Pytorch、PaddlePaddle结合使用,可以记录模型训练过程当中的 超参数、Loss、Accuracy、Precision、F1值等,并以曲线图的形式进行展现对比 ,轻松三步即可实现。 GitHub项目地址: https://github.com/NLP-LOVE/Model_Log 通过调节超参数的方式多次训练模型,并使用 Model Log 工具进行记录,可以很直观的进行模型对比,堪称调参神器。以下是使用工具后模型训练时 Loss 的变化曲线图。访问线上体验版: http://mantchs.com/model_log.html 通过上图可以很清晰的看出两个模型的训练效果,而且在表格当中高亮显示修改过的超参数,方便进行模型分析。 2. Model Log 特性 轻量级、无需任何配置、极简API、开箱即用。 只需要把模型的超参数和评估指标数据通过API添加即可,轻松三步即可实现。 高亮显示修改过的超参数,方便进行模型分析。 自动检测和获取正在训练的模型数据,并进行可视化,无需人工参与。 使用 SQLite 轻量级本地数据库存储,可供多个用户同时使用