BERT

2019,那些属于飞桨的重要时刻

有些话、适合烂在心里 提交于 2020-02-26 08:20:36
2019已经悄然落幕,在过去一年中,飞桨加速崛起,在产品性能上高效迭代,并屡次斩获多项大奖,其取得的成绩有目共睹,这也意味着飞桨正领衔中国深度学习框架迎来高光时刻。现在,让我们一起来回顾一下2019关于飞桨的那些重要记忆。 01 核心发布 一、 版本迭代 2019年,飞桨一共进行了4次大版本迭代,同时还推出了语义理解框架ERNIE,产品体验大幅提升,核心技术显著增强。 V1.3 3月,飞桨统一Executor和ParallelExecutor接口,正式发布AnalysisConfig 预测接口,支持计算图分析、算子融合等优化;模型库新增发布飞桨视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码;新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+;发布大规模稀疏参数服务器Benchmark。 V1.4 4月,飞桨正式发布模型压缩工具包PaddleSlim和模型预测服务Paddle Serving,全面提升飞桨部署能力。正式发布视频分类工具包,覆盖主流视频分类模型;正式发布PaddleNLP,工业级中文NLP工具与预训练模型集。正式发布PaddleHub预训练模型管理工具,提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能。发布业界领先的超大规模并行能力,包括大规模稀疏参数服务器解决方案、工业级数据处理

Huggingface Bert TPU fine-tuning works on Colab but not in GCP

拟墨画扇 提交于 2020-02-06 07:55:10
问题 I'm trying to fine-tune a Huggingface transformers BERT model on TPU. It works in Colab but fails when I switch to a paid TPU on GCP. Jupyter notebook code is as follows: [1] model = transformers.TFBertModel.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad') # works [2] cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver( tpu='[My TPU]', zone='us-central1-a', project='[My Project]' ) tf.config.experimental_connect_to_cluster(cluster_resolver) tf.tpu

首场百度大脑开放日来袭 | 全新开放24项AI技术

♀尐吖头ヾ 提交于 2020-01-09 11:37:08
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。 1 PaddlePaddle:用深度学习赋能智能+的方方面面 1、业界首个视频分类模型库: 新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。 2、基于PaddlePaddle的BERT多机多卡和混合精度训练。 新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。 3、分布式训练性能大幅提升: 大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。 并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍

大众点评信息流基于文本生成的创意优化实践

让人想犯罪 __ 提交于 2019-12-07 17:53:10
1. 引言 信息流是目前大众点评除搜索之外的第二大用户获取信息的入口,以优质内容来辅助用户消费决策并引导发现品质生活。整个大众点评信息流(下文简称点评信息流)围绕个性化推荐去连接用户和信息,把更好的内容推荐给需要的用户。信息流推荐系统涉及内容挖掘、召回、精排、重排、创意等多层机制和排序。本文主要围绕创意部分的工作展开,并选取其中重要的文本创意优化做介绍,分为三个部分:第一部分阐述几个重点问题,包括创意优化是什么,为什么做,以及挑战在哪里;第二部分讲述领域内的应用及技术进展;第三部分介绍我们创意优化的实践,最后做个总结。 什么是创意优化 创意是一个宽泛的概念,它作为一种信息载体对受众展现,可以是文本、图像、视频等任何单一或多类间的组合,如新闻的标题就是经典的创意载体。而创意优化,作为一种方法,指在原有基础上进一步挖掘和激活资源组合方式进而提升资源的价值。在互联网领域产品中,往往表现为通过优化创意载体来提升技术指标、业务目标的过程,在信息流中落地重点包括三个方向: 文本创意 :在文本方面,既包括了面向内容的摘要标题、排版改写等,也包括面向商户的推荐文案及内容化聚合页。它们都广泛地应用了文本表示和文本生成等技术,也是本文的主要方向。 图像创意 :图像方面涉及到首图或首帧的优选、图像的动态裁剪,以及图像的二次生成等。 其他创意 :包括多类展示理由(如社交关系等)、元素创意在内的额外补充信息

深度学习在商户挂牌语义理解的实践

隐身守侯 提交于 2019-12-07 04:31:09
​导读:高德地图拥有几千万的POI兴趣点,例如大厦、底商、学校等数据,而且每天不断有新的POI出现。为了维持POI数据的鲜度,高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂,多变,同时,名称制作工艺要求严格,通过人工来制作POI名称,需要花费大量的人力成本。 因此,POI名称的自动生成就显得格外重要,而机器对商户挂牌的语义理解又是其中关键的一环。本文主要介绍相关技术方案在高德的实践和业务效果。 一、背景 现实世界中,商户的挂牌各式各样,千奇百怪,如何让机器正确的理解牌匾语义是一个难点。商户挂牌的文本种类有很多,如下图所示,我们可以看到一个商户牌匾的构成。 结合POI的名称制作工艺,我们目前将POI的牌匾的文本行分为4大类:主名称、经营性质(包括经营范围,具体的进行项目)、分店名、噪声(包括非POI文字,地址,联系方式),前面3个类别会参与到POI名称制作中。如上图所示的牌匾,它输出的规范名称应该是“世纪宏图不动产 (兴业路店)”。其中“世纪宏图”是主名称,“不动产”是经营范围,而“兴业路店”是分店名。 从牌匾中找出制作名称所需要的文字,不仅仅需要文本行自身的一些特征,还需要通过结合牌匾上下文,以及图像的信息进行分析。单纯的文本行识别会遇到下面的问题,如下图,在两个牌匾中都提到了“中国电信”,但是它们的意义是不一样的,这时必须结合上下文的理解。 二、技术方案

深度学习在商户挂牌语义理解的实践

十年热恋 提交于 2019-12-07 04:29:35
​导读:高德地图拥有几千万的POI兴趣点,例如大厦、底商、学校等数据,而且每天不断有新的POI出现。为了维持POI数据的鲜度,高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂,多变,同时,名称制作工艺要求严格,通过人工来制作POI名称,需要花费大量的人力成本。 因此,POI名称的自动生成就显得格外重要,而机器对商户挂牌的语义理解又是其中关键的一环。本文主要介绍相关技术方案在高德的实践和业务效果。 一、背景 现实世界中,商户的挂牌各式各样,千奇百怪,如何让机器正确的理解牌匾语义是一个难点。商户挂牌的文本种类有很多,如下图所示,我们可以看到一个商户牌匾的构成。 结合POI的名称制作工艺,我们目前将POI的牌匾的文本行分为4大类:主名称、经营性质(包括经营范围,具体的进行项目)、分店名、噪声(包括非POI文字,地址,联系方式),前面3个类别会参与到POI名称制作中。如上图所示的牌匾,它输出的规范名称应该是“世纪宏图不动产 (兴业路店)”。其中“世纪宏图”是主名称,“不动产”是经营范围,而“兴业路店”是分店名。 从牌匾中找出制作名称所需要的文字,不仅仅需要文本行自身的一些特征,还需要通过结合牌匾上下文,以及图像的信息进行分析。单纯的文本行识别会遇到下面的问题,如下图,在两个牌匾中都提到了“中国电信”,但是它们的意义是不一样的,这时必须结合上下文的理解。 二、技术方案

深度学习在商户挂牌语义理解的实践

ぃ、小莉子 提交于 2019-12-06 16:47:40
​导读:高德地图拥有几千万的POI兴趣点,例如大厦、底商、学校等数据,而且每天不断有新的POI出现。为了维持POI数据的鲜度,高德会通过大量的数据采集来覆盖和更新。现实中POI名称复杂,多变,同时,名称制作工艺要求严格,通过人工来制作POI名称,需要花费大量的人力成本。 因此,POI名称的自动生成就显得格外重要,而机器对商户挂牌的语义理解又是其中关键的一环。本文主要介绍相关技术方案在高德的实践和业务效果。 一、背景 现实世界中,商户的挂牌各式各样,千奇百怪,如何让机器正确的理解牌匾语义是一个难点。商户挂牌的文本种类有很多,如下图所示,我们可以看到一个商户牌匾的构成。 结合POI的名称制作工艺,我们目前将POI的牌匾的文本行分为4大类:主名称、经营性质(包括经营范围,具体的进行项目)、分店名、噪声(包括非POI文字,地址,联系方式),前面3个类别会参与到POI名称制作中。如上图所示的牌匾,它输出的规范名称应该是“世纪宏图不动产 (兴业路店)”。其中“世纪宏图”是主名称,“不动产”是经营范围,而“兴业路店”是分店名。 从牌匾中找出制作名称所需要的文字,不仅仅需要文本行自身的一些特征,还需要通过结合牌匾上下文,以及图像的信息进行分析。单纯的文本行识别会遇到下面的问题,如下图,在两个牌匾中都提到了“中国电信”,但是它们的意义是不一样的,这时必须结合上下文的理解。 二、技术方案

35个Github优质开源AI项目,计算机视觉热度为何高居不下?

一曲冷凌霜 提交于 2019-12-05 17:21:35
机器学习是使计算机无需明确编程即可学习的能力的研究领域。 ML是一个人们曾经遇到过的最令人兴奋的技术之一。 从名称可以明显看出,它为计算机提供了与人类更相似的能力:学习能力。 如今,机器学习正在被人类用在很多领域。我们比较了将近22,000个机器学习开源工具和项目,从中选出了35个优秀的机器学习项目。 <计算机视觉> 1、Detectron:用于物体检测研究的FAIRs研究平台,实现了流行的算法,例如Mask R-CNN和RetinaNet。 [Github星星数:13913] 2、Openpose:用于身体,面部和手部预估的实时多人关键点检测库。[Github星星数:11052] 3、DensePose:一种将2D RGB图像的所有人类像素映射到基于3D表面的人体模型的实时方法。[Github星星数:4165] 4、Maskrcnn基准测试:实现PyTorch中语义分割和对象检测算法的快速模块化参考。 [Github星星数:3888] 5、SNIPER:是一种有效的多尺度目标检测算法。[Github星星数:1963] <强化学习> 6、Psychlab:使用Psychlab平台(基于代理的AI的3D平台)实施的实验范例。[Github星星数:5955] 7、ELF:用于游戏研究的广泛,轻便且灵活的平台。我们使用它来构建围棋机器人ELF OpenGo

bert+seq2seq 周公解梦,看AI如何解析你的梦境?【转】

别说谁变了你拦得住时间么 提交于 2019-12-05 13:52:29
介绍 在参与的项目和产品中,涉及到模型和算法的需求,主要以自然语言处理(NLP)和知识图谱(KG)为主。NLP涉及面太广,而聚焦在具体场景下,想要生产落地的还需要花很多功夫。 作为NLP的主要方向,情感分析,文本多分类,实体识别等已经在项目中得到应用。例如 通过实体识别,抽取文本中提及到的公司、个人以及金融产品等。 通过情感分析,判别新闻资讯,对其提到的公司和个人是否利好? 通过文本多分类,判断资讯是否是高质量?判断资讯的行业和主题? 具体详情再找时间分享。而文本生成、序列到序列(Sequence to Sequence)在机器翻译、问答系统、聊天机器人中有较广的应用,在参与的项目中暂无涉及,本文主要通过tensorflow+bert+seq2seq实现一个简单的问答模型,旨在对seq2seq的了解和熟悉。 数据 关于seq2seq的demo数据有很多,例如小黄鸡聊天语料库,影视语料库,翻译语料库等等。由于最近总是做些奇怪的梦,便想着,做一个AI解梦的应用玩玩,just for fun。 通过采集从网上采集周公解梦数据,通过清洗,形成 dream:梦境; decode:梦境解析结果。 这样的序列对,总计33000+ 条记录。数据集下载地址:后台回复“解梦” { "dream": "梦见商人或富翁", "decode": "是个幸运的预兆,未来自己的事业很有机会成功

一篇文章看懂自然语言处理——word表示技术的变迁(从bool模型到BERT)

老子叫甜甜 提交于 2019-11-30 11:55:54
一、背景 自然语言处理就是要让计算机理解人类的语言,至于到目前为止,计算机是否真的理解的人类的语言,这是一个未知之数,我的理解是目前为止并没有懂得人类语言,只是查表给出一个最大概率的回应而已。那么自然语言处理(NLP)包括哪些领域的东西呢?文本分类(如:垃圾邮件分类、情感分析)、机器翻译、摘要、文法分析、分词、词性标注、实体识别(NER)、语音识别等等,都是NLP要解的问题。那么这些解了这些问题,计算机是否真的懂得人类语言的含义,现在还未知,本片文章不过多的展开讨论。语言的单位是词,那么计算机是如何来表示词的,用什么技术来表示一个词,就可以让计算机理解词的含义呢?本篇博客将进行详细的讨论,从bool模型,到向量空间模型、到各种word embedding(word2vec、elmo、GPT、BERT) 二、原始时代 在Deeplearning之前,表示一个词,并没有一个约定俗成的办法,如何表示,取决于想解决的任务。 1、Bool模型 下面有两句话,求文本相似度。 我喜欢张国荣 你喜欢刘德华 那么,布尔模型比较简单粗暴,出现了词所在维度为1,没出现的所在维度为0,如下图: 然后求两个向量的cosine即可。 在bool模型中,由于特征值只有1和0两个取值,不能很好的反应特征项在文本中的重要程度。 2、VSM(向量空间模型) Bool模型其实可以看做是VSM的特例