自然语言处理

使用PyCaret构建机器学习模型

本小妞迷上赌 提交于 2020-07-28 18:26:46
作者|LAKSHAY ARORA 编译|VK 来源|Analytics Vidhya 概述 PyCaret是一个超级有用的Python库,用于在短时间内执行多个机器学习任务 学习如何依赖PyCaret在几行代码中构建复杂的机器学习模型 介绍 我建立的第一个机器学习模型是一个相当麻烦的代码块。我仍然记得构建一个集成模型,它需要许多行代码,它十分需要一个向导来解开这些混乱的代码! 当涉及到构建可解释的机器学习模型时,尤其是在行业中,编写高效的代码是成功的关键。所以我强烈建议使用PyCaret库。 我希望PyCaret在我的刚学习机器学习的日子里出现!这是一个非常灵活和有用的库,我在最近几个月已经相当依赖。我坚信任何有志成为数据科学或分析专业人士的人都会从使用PyCaret中受益匪浅。 我们将看到PyCaret到底是什么,包括如何在你的机器上安装它,然后我们将深入研究如何使用PyCaret来构建可解释的机器学习模型,包括集成模型。 目录 什么是PyCaret?为什么要使用它? 安装PyCaret 熟悉PyCaret 使用PyCaret训练我们的机器学习模型 使用PyCaret构建集成模型 分析模型 做出预测 保存并加载模型 什么是PyCaret?为什么要使用它? PyCaret是Python中一个开源的机器学习库,它可以帮助你从数据准备到模型部署。它很容易使用

基于TorchText的PyTorch文本分类

荒凉一梦 提交于 2020-07-28 16:56:44
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 文本分类是自然语言处理的重要应用之一。在机器学习中有多种方法可以对文本进行分类。但是这些分类技术大多需要大量的预处理和大量的计算资源。在这篇文章中,我们使用PyTorch来进行多类文本分类,因为它有如下优点: PyTorch提供了一种强大的方法来实现复杂的模型体系结构和算法,其预处理量相对较少,计算资源(包括执行时间)的消耗也较少。 PyTorch的基本单元是张量,它具有在运行时改变架构和跨gpu分布训练的优点。 PyTorch提供了一个名为TorchText的强大库,其中包含用于预处理文本的脚本和一些流行的NLP数据集的源代码。 在本文中,我们将使用TorchText演示多类文本分类,TorchText是PyTorch中一个强大的自然语言处理库。 对于这种分类,将使用由EmbeddingBag层和线性层组成的模型。EmbeddingBag通过计算嵌入的平均值来处理长度可变的文本条目。 这个模型将在DBpedia数据集上进行训练,其中文本属于14个类。训练成功后,模型将预测输入文本的类标签。 DBpedia数据集 DBpedia是自然语言处理领域中流行的基准数据集。它包含14个类别的文本,如公司、教育机构、艺术家、电影等。 它实际上是从维基百科项目创建的信息中提取的结构化内容集

苹果App Clips入场,中心化+开放生态或许是小程序的未来

折月煮酒 提交于 2020-07-28 15:07:17
文|曾响铃 来源|科技向令说(xiangling0815) 12年前,苹果通过App Store改变了行业。 12年后,苹果在最近的WWDC2020上宣布,将在App Store新增“App Clips”功能,用来延伸App Store的成功,可见苹果对这项新功能寄予的厚望。 据官方介绍,App Clips能让用户以全新的方式拥有和使用app——快速发现、打开和体验。如通过扫描App Clip码、NFC标签和QR代码等可在几秒内唤醒使用,并支持Apple Pay支付和Apple账号登陆。 具体来看,比如在停车场支付停车费、在餐馆点餐等,可以直接掏出手机通过App Clip进行支付和点餐,而无需打开相应的app再进行后续操作。 从形式上来看,App Clip就像是app的快捷打开方式。而从体验上看,它就跟我们日常使用微信小程序、百度智能小程序、支付宝小程序、快应用等小程序是一样的——易于发现、无需下载、即需即用、用完即走。 这意味着,苹果App Store正式杀入小程序大军。按照以往惯性,苹果在很多领域并非最快的一个,但其每次入场,很大概率都会成为行业风向标。 那么,苹果这次以中心化分发形式杀入的App Clips,会不会成为小程序行业新的风向标呢? 一、App Clips“跟风”入场,小程序兵分两路“加速”顶端相见 相比App Clips的姗姗来迟,国内小程序的发展要早得多。

3小时极致学习AI开发,WAIC开发者日有一堂必上公开课

℡╲_俬逩灬. 提交于 2020-07-28 12:34:52
  2020 年,人工智能商业化落地全面加速。百度,作为国内人工智能领军企业,围绕最早开源的自研 AI 框架飞桨,在人工智能开发领域有着长期高强度的投入。   今年 5 月份的「WAVE SUMMIT 2020」深度学习开发者峰会上,百度飞桨发布包括端到端图像分类开发套件 PaddleClas 在内的 7 项开源新品、23 项重要升级,全面助力开发者进行人工智能开发。   除了全新发布,面向中小企业,飞桨企业版 EasyDL 全新升级,预置丰富网络和模型,提供零门槛、便捷高效的开发。对企业开发者而言,EasyDL 可谓是一站式开发利器。   在 EasyDL 开发平台之外,2017 年百度 AI 开发者大会上也曾发布对话系统定制平台 UNIT,搭载了业界领先的对话理解与对话管理技术,可以帮助开发者赋予产品智能对话的交互能力。2019 年,UNIT 升级到 3.0 版本,提供强大的智能对话解决方案。   纵深布局人工智能技术十数年,开发者一直是百度极为重视的力量。当前百度飞桨累积开发者数量已超过 190 万,服务企业数量达到 84000 家,发布模型数量已超过 23 万个。   为了更好的服务广大开发者,帮助大家快速学习掌握人工智能技术。在今年 WAIC 开发者日期间,机器之心将联合百度组织「开发者日百度公开课」,为广大开发者提供 3 小时极致学习机会,从 NLP、CV 到零门槛

百度云「升级战」:CTO站台,新架构全面AI化,AI和知识中台登场

自古美人都是妖i 提交于 2020-07-28 09:57:44
5月18日,"ABC SUMMIT 2020百度夏季云智峰会"在线上召开。刚刚经历了人事变动的百度云迎来重磅升级,大会以"百度智能云加速产业智能化"为主题,百度智能云全新战略、新架构首次亮相,AI中台、知识中台两大创新平台及8大全新行业解决方案重磅登场。 王海峰表示,全新升级的百度智能云融合了云计算、百度大脑、大数据等百度核心技术,将在新基建大潮中,成为加速AI工业化大生产的关键力量。 用一句话总结:全面智能化(AI化)。 (王海峰在2020百度夏季云智峰会上发布百度智能云全新战略) 当下,人工智能技术发展日趋成熟,成为科技革命和产业变革的重要驱动力。在此背景下,百度智能云全新战略升级, "以云计算为基础,以人工智能为抓手,聚焦重要赛道。"王海峰表示,百度智能云业务目前已经远远超越了基础云计算,人工智能、大数据、区块链、物联网构成了智能云新的业务基础。人工智能是百度的优势所在,也是服务客户的抓手。有了基础和抓手之后,百度智能云将聚焦社会价值及商业价值兼具的重要赛道,并持续探索和拓展新赛道。 为了更好地执行新战略,百度智能云对业务架构进行了调整。新架构分为三层,底层是百度大脑,包括基础层、感知层、认知层和安全,是百度核心技术引擎。中间是平台,包括通用的基础云平台、AI中台、知识中台,以及针对场景的平台和其他关键组件。在基础层和平台的支持下,上层的智能应用和解决方案将为各行各业赋能

独家解析英伟达最新GPU-A100对AI行业带来的影响

試著忘記壹切 提交于 2020-07-28 09:56:14
最近英伟达发布了最新GPU-A100,当我们先后经历了K系列、M系列、P系列、V系列之后,这一次的A系列发布又会带来哪些影响,未来行业的走势如何,新入行的同学究竟选择哪个领域入门比较合适。今天我将从3个方向为大家一一剖析, 计算力变强了,会给行业带来什么影响 计算力变便宜了,会给行业带来什么影响 英伟达的野心在哪里,对行业有什么影响 1 计算力变强的影响 这次新的GPU在算力方面变强的幅度是比较夸张的,根据官方数据显示,在Bert模型的场景下,训练和预测都有大幅度的提升。 同时新的机器搭载了三星的40G的超大HBM2显存。这些信号意味着什么呢?意味着计算框架的算力层面价值在弱化。过去提到TensorFlow、PyTorch,大家比的是哪种框架在分布式场景下更快,因为当模型的训练量大到单机很难在短时间内收敛,因为当模型大小大到单机内存没法承载之后,只能依赖分布式的方案去解决问题。 今天,A100即使在单机情况下也提供了可能过去可能2到5台机器的分布式能力。也就是说,今天单机的能力变强了。在计算框架层面,未来更多地需要从计算力优化的角度转向如何提升用户体验,提供更简单的开发接口。 所以,未来深度学习的开发会变得更简单,得益于框架的向用户体验转型。另外,框架级别的优化工作以及各种模型量化工作,将只在部分超大规模的应用场景下有意义。 如果把AI拆分成三层,最下方是计算力为代表的芯片GPU

AI芯片第一股寒武纪诞生,经典回顾四大明星产品

痴心易碎 提交于 2020-07-28 09:46:25
  7 月 20 日,科创板迎来首家 AI 芯片龙头,中科寒武纪科技股份有限公司(下称寒武纪)登陆科创板,申购代码为“688256”,拟募资 28 亿元。截止当天上午,寒武纪上市首日开盘上涨约 290%,当前市值已突破 1000 亿元。      图|寒武纪登陆科创板(来源:寒武纪)   公开资料显示,寒武纪是目前全球少数几家全面掌握智能芯片、基础系统软件研发和产品化核心技术的企业之一,其可以提供云边端一体、软硬件协同、训练推理融合、并具备统一生态的系列化智能芯片产品和平台化基础系统软件。   成立四年来,寒武纪每年都会推出新品,相比一般芯片公司 1-3 年推出新品的速度,较高的产品迭代速度和研发能力,让这只独角兽得以快速奔跑。在研发上,寒武纪非常“大手笔”。据该司招股书资料显示,2017 年、2018 年和 2019 年连续三年,寒武纪研发费用分别为 2986.19 万元、24011.18 万元和 54304.36 万元,研发费用率分别为 380.73%、205.18% 和 122.32%,研发费用比营业收入还高,这对一家创业公司来说显得尤为宝贵。      图 | 寒武纪主要财务数据及财务指标(来源:寒武纪招股书)   本次寒武纪上市的科创板,于 2019 年 6 月 13 日正式开板。时隔一年,科创板总市值已经达到 1.72 万亿元,而本次寒武纪上市,标志着科创板迎来 AI

六种用于文本分类的开源预训练模型

拟墨画扇 提交于 2020-07-28 09:07:13
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍 我们正站在语言和机器的交汇处,这个话题我很感兴趣。机器能像莎士比亚一样写作吗?机器能提高我自己的写作能力吗?机器人能解释一句讽刺的话吗? 我肯定你以前问过这些问题。自然语言处理(NLP)也致力于回答这些问题,我必须说,在这个领域已经进行了突破性的研究,促使弥合人类和机器之间的鸿沟。 文本分类是自然语言处理的核心思想之一。如果一台机器能够区分名词和动词,或者它能够在客户的评论中检测到客户对产品的满意程度,我们可以将这种理解用于其他高级NLP任务。 这就是我们在文本分类方面看到很多研究的本质。迁移学习的出现可能促进加速研究。我们现在可以使用构建在一个巨大的数据集上的预训练的模型,并进行优化,以在另一个数据集上实现其他任务。 迁移学习和预训练模型有两大优势: 它降低了每次训练一个新的深度学习模型的成本 这些数据集符合行业公认的标准,因此预训练模型已经在质量方面得到了审查 你可以理解为什么经过预训练的模特会大受欢迎。我们已经看到像谷歌的BERT和OpenAI的GPT-2这样的模型真的很厉害。在这里中,我将介绍6种最先进的文本分类预训练模型。 我们将介绍的预训练模型: XLNet ERNIE Text-to-Text Transfer Transformer(T5) BPT NABoE

开源!我知道你不知道,百度开源词法LAC 2.0帮你更懂中文

[亡魂溺海] 提交于 2020-07-28 07:46:23
百度NLP权威发布,可能是最好用的中文词法分析工具—— LAC 2.0 闪亮登场!与LAC 1.0相比,LAC 2.0在性能与效果上有明显提升,且支持多种开发语言,一键安装调用,更加快速便捷。 LAC项目地址: https://github.com/baidu/lac 下载安装命令 ## CPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/cpu paddlepaddle ## GPU版本安装命令 pip install -f https://paddlepaddle.org.cn/pip/oschina/gpu paddlepaddle-gpu LAC是什么 LAC全称Lexical Analysis of Chinese,是百度NLP(自然语言处理部)研发的一款词法分析工具,可实现 中文分词 、 词性标注 、 专名识别 等功能。 LAC在分词、词性、专名识别的整体准确率超过90%,以专名识别为例,其效果要比同类词法分析工具提升10%以上。 例如: 我知道你不知道,百度开源词法LAC帮你更懂中文! LAC 2.0可以从语义合理性角度精确完成 分词、词性标注 和 专名 的一体化识别。 LAC 2.0有哪些优势 自开源以来,LAC得到了不少关注与好评。为了进一步提升厂内外开发者的使用体验

周伯文对话斯坦福教授曼宁:人机对话智能新进展需要新「图灵测试」

让人想犯罪 __ 提交于 2020-07-28 06:06:59
6 月 22 日,在 2020 智源大会上,有一场大佬对大佬的精彩会谈。 机器之心报道,机器之心编辑部。 过去一年里,人工智能进展最大的方向在自然语言处理(NLP),BERT、GPT-2 等预训练模型引领了很多方向的新时代,又催生出了大量商业应用机会。面对技术的进步,AI 领域的顶级学者和从业高管是如何看待未来前景的?近日,2020 智源大会在线上召开,在为期四天的会议中,5 位图灵奖得主、上百位业内专家在 19 个专题论坛云上共同畅想了人工智能的下一个十年。 在智源大会上,京东集团技术委员会主席、京东智联云总裁、京东人工智能研究院院长、IEEE Fellow 周伯文与斯坦福大学教授、人工智能实验室负责人克里斯托弗 · 曼宁(Christopher Manning)展开了一次精彩的交流。他们讨论了自然语言处理领域近期的进展,预训练模型兴起之后的未来发展方向,甚至还为人工智能的标杆评测基准——图灵测试找到了一个「替代方案」。 在交流过程中,两人也提及了京东最近被人工智能顶会 ACL-2020 接收的研究,以及曼宁刚刚发表的工作,有关预训练模型学习到的语言结构。 在过去这一年中,我们见证了许多 NLP 领域的技术成果和场景落地。对此,人工智能著名学者克里斯托弗 · 曼宁和京东集团技术「掌门人」周伯文是如何看待的?让我们一探究竟。 语言理解 & 人机对话领域过去一年的进展