自然语言处理

寻找AI机器人的增长“跳板”:老龄化为支点的产业上探

我怕爱的太早我们不能终老 提交于 2020-08-17 19:12:33
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 在诸多探讨老龄社会的电影中,《机器人与弗兰克》描述了一个近未来场景——一个拥有强大智能,可以用流利的语言和任何人对话,可以做饭、收拾屋子的机器人,与患有阿尔茨海默病的老人弗兰克,是如何消除隔膜、成功生活在一起的。 创作者对人工智能机器人发展前景的乐观态度显而易见,随着人工智能技术的普及,机器人也得以有机会真正走进人类的生活。2020年,我们不仅在抗疫、园区、工业等领域,看到机器人数量显著增加,而且有越来越多的机器人出现在新的应用领域。伴随着劳动力短缺和成本上升,即将结束人口红利时代的中国市场,也会紧跟日本、德国等发达国家,在机器人密度上迎来高速发展。而这,也正是机器人助力各行各业实现增长的社会大背景。 与蓬勃的产业趋势相对应的,是越来越多的人清醒地意识到,受限于技术瓶颈,电影里那种拥有独立思考能力和人类感情的AI机器人,还遥不可及。 拿中国社会来说,2019年65岁以上的人口就达到了7%,标志着我们将在这个世纪正式进入老龄化社会。由此带来的社会问题,如新增老人的照护难题怎么解决?产业人工短缺局面如何疏解?自然也在酝酿新的商业机遇点。各种养老、服务型机器人应运而生,共同奏响了老龄化地球的人机共生序曲。 产业界力量的参与,在此时就变得意义非凡。之所以有此感慨

秀!黄仁勋烤箱里端出 7nm 芯片,AI 算力提升 20 倍

佐手、 提交于 2020-08-17 18:07:58
      作 者 | 包永刚    编辑 | 丛 末   突如其来的新冠肺炎大流行打乱了众多公司的产品发布计划,比如本该在今年3月英伟达(NVIDIA)GTC 2020上发布的安培(Ampere)架构曝光多次却一直未发布。今天,英伟达CEO黄仁勋发布了英伟达新一代GPU架构安培,并带来了基于安培架构GPU A100的DGX-A100 AI系统和面向边缘AI计算的EGX A100。   有意思的是,受疫情影响,已经在家工作四十五天的黄仁勋是在家里的厨房提前录制了演讲视频,用三个视频完成了2020 GTC的主题演讲和新品发布。   此次GTC 2020最重磅的产品自然是安培架构GPU A100,这是目前全球最大的7nm芯片,面积高达826平方毫米,集成了540亿个晶体管。相比Volta架构实现了高达20倍的性能提升,并且可以同时满足AI训练和推理的需求。   由8个安培A100 GPU打造的NVIDIA DGX A100 AI系统单节点性能达到了创纪录的5 petaflops。       1    第八代安培GPU架构性能提升高达20倍   安培是英伟达继2018发布的Turing(图灵)架构之后的最新一代GPU架构,也是英伟达推出的第八代GPU架构。 黄仁勋说:“Ampere架构的突破性设计为英伟达第八代GPU提供了迄今为止最大的性能飞跃,集AI训练和推理于一身

下笔如有神:这是一个基于营销行业的 AI 技术实践

a 夏天 提交于 2020-08-17 16:15:22
今年京东 618,平台累计下单金额超 2692 亿元 ,创下了新的记录。惊喜的数字背后, 离不开 京东智联云的 AI 技术为用户多元购物体验的赋能。 在【发现好货】中 AI 创作的内容是人工创作内容曝光点击率的 1.4 倍 。在京小智智能客服,智能生成了 数百万 营销文案,每天相当于超过 500 个 文案编辑人员的工作量。 “读书破万卷,下笔如有神”,当机器书读万卷的时候,能否做到下笔有神呢? 我们正在经历一个节奏越来越快的时代,互联网上的信息来也匆匆去也匆匆,各行各业涉及到高频内容生产和处理工作的都希望内容生产的速度快、质量高、数量多。而随着人工智能技术的发展,让机器辅助人类更高效地处理信息,以及让机器自动生成信息都已经成为可能。 让机器“下笔如有神”,涉及到的就是自然语言处理(NLP)技术了, 其实依据 NLP 让机器帮助人工写作的技术早已不是新鲜事,前两年人工智能最火热的时候,关于 “AI 写新闻稿,记者要失业”、“AI 写剧本,编剧要下岗”等新闻甚嚣尘上,对于 AI 导致文字工作者失业的讨论也是学术界、产业界喜欢探讨的话题。 对于这种技术能力,在市场上我们常听到的称呼则是「智能写作」,它可以广泛应用于各种业务场景中。 我们以电商场景为例,在电商产品页面,通过点击商品标题、商品详情,到最终的下单行为,图文的感染力是左右用户的实在原因,而且随着电商平台体量增大

2017-2020年人工智能公司死亡名单

陌路散爱 提交于 2020-08-17 16:08:09
▼ 更多精彩推荐,请关注我们 ▼ 有浪潮就有泡沫,有泡沫就有死亡。 被称为继移动互联网之后又一次个重要技术爆炸的人工智能,从者如云。从2017年以来,又有多少人工智能公司在浪潮中诞生,又有多少公司在浪潮中死亡? 中国软件网将从有融资记录和无融资记录,为你展开这份涉及数十亿资金、数十家投资机构,上百个老赖,平均存活892天,135家死亡公司的 人工智能创业启示录。 从这份名单中,可以清晰地的看到,2016、2017年开始, 大量的人工智能创业公司开始集中注册,又于2019年开始集中注销。 (数据来源:企查查) (数据来源:企查查) 从赛道上看,企业服务占比虽较低低,但总量也低,;智能机器人占比最高,尸横遍野。 (数据来源:企查查) 虽然是死亡名单,但我们也很惊喜地的看到,有很多诸如心理咨询、会议速记等成熟行业的公司跨界而来,尝试用新技术革新老行业,相对于早期人工智能热潮所推崇“概念+PPT”实在是让人欣慰太多了。 声明:这里统计的是公司注销记录,其中部分企业虽然注销,但其法人代表、主要股东的关联企业仍然显示存续、在业,由于注销与存续企业在主营业务经营范围重合度不一,在此不做一一详细介绍。 接下来,我们从有融资记录和无融资记录两部分入手,展开这份人工智能创业启示录。 光环之下,尸骨累累。 有融资记录部分 注销公司24家,吊销2家,并购2家。 ▶ 2.1 智能机器人 数据来源:企查查

第19天:NLP实战(三)——用CNN实现微博谣言检测

谁说我不能喝 提交于 2020-08-17 15:09:35
  接着上次的项目,主要是为了熟悉我们对NLP知识的实际应用,接着上次对深度学习中的DNN的简单应用相信大家对深度学习的相关知识以及相应的实现流程有了一个初步的了解,今天接着上次的 项目 ,通过用CNN对微博谣言检测进行实现。很明显这是个二分类的问题,因此,我们可以用到朴素贝叶斯或者逻辑回归以及支持向量机都可以解决这个问题,另外在深度学习中,我们可以用CNN-Text或者RNN以及LSTM等模型最好,之所以本次用到CNN就是通过本次项目介绍让大家对CNN有一个更深层次的了解。接下来,我们详细给大家介绍项目。 任务介绍   人们常说“流言止于智者”,要想不被网上的流言和谣言盅惑、伤害,首先需要对其进行科学甄别,而时下人工智能正在尝试担任这一角色。那么,在打假一线AI技术如何做到去伪存真?传统的谣言检测模型一般根据谣言的内容、用户属性、传播方式人工地构造特征,而人工构建特征存在考虑片面、浪费人力等现象。本次实践使用基于卷积神经网络(CNN)的谣言检测模型,将文本中的谣言事件向量化,通过循环神经网络的学习训练来挖掘表示文本深层的特征,避免了特征构建的问题,并能发现那些不容易被人发现的特征,从而产生更好的效果。 数据集介绍   本次实践所使用的 数据 [验证码:u0is]是从新浪微博不实信息举报平台抓取的中文谣言数据,数据集中共包含1538条谣言和1849条非谣言。如下图所示

讲座内容整理:人工智能热点应用及其典型案例

谁说胖子不能爱 提交于 2020-08-17 13:51:55
1、什么是人工智能? 人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能(比如,计算的能力)的理论、方法、技术以及应用系统的一门新的技术科学。 它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理、和专家系统等。 人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。 2、人工智能有哪些类型? 弱人工智能:包含基础的、特定场景下角色型的任务(我们现在仍处于弱人工智能时代,目前大部分的人工智能的产物都是基于大量数据的喂养,拟合出物体属性,是基于统计学的,需要大量的数据输入和算法支撑,是从感知的角度模拟人的智能,是一种感知计算) 通用人工智能:包含人类水平的任务 强人工智能:指比人类更聪明的机器(此时是认知计算,人工智能拥有了理解、推理以及学习的能力,拥有了人的创造、创新能力) 让机器人和人一样思考:机器学习,自动推理,人工意识,知识表示; 像人一样听懂:语音识别; 像人一样看懂:视觉识别; 和人一样运动:运动识别。 3、机器学习和深度学习算法是人工智能第三次浪潮的重要支撑,也是核心部分;人工智能包含机器学习和深度学习;机器学习与数据挖掘有部分联系,但又有别于数据挖掘(可查找资料深入了解

基于 Embedding 算法的数据安全输出方案详解

我的未来我决定 提交于 2020-08-17 08:59:24
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 传统的数据开放共享方式,很多是将原始数据以明文的方式直接输出,这样在数据安全和隐私保护方面存在显著风险,不符合日益完善的法律法规要求,也越来越不能满足当今数据体量、规模日益庞大而复杂的应用需求。另外,也存在加工为标签类的数据再进行输出的方式,但通常存在信息漏损,使用这类数据进行建模,效果大打折扣。 经过实践,TalkingData 借助机器学习技术探索出一套新的方案,通过对原始数据进行分布式的隐含表征提取计算(一种数据变换方式),再将变换后的数据用于开放共享,既可以满足数据输出的安全性要求,又提升了大数据输出的处理速度。该数据输出方式主要基于机器学习的分布式 embedding 算法(嵌入算法)。Embedding 算法是一系列算法的统称,该类算法能够对原始数据进行变换,并挖掘其中的潜在关联。Embedding 算法处理后的数据由于信息漏损较少,相对标签数据有更好的建模效果,被广泛用于推荐系统、自然语言处理等领域。 TalkingData 将该类算法应用到数据安全输出领域,使得原始数据在经过变换后,能够以不具备可识别性的方式输出,而数据获取方无法从中提取到与个人身份相关的敏感信息,也就实现了对隐私数据的匿名化保护。 基于保护用户隐私

基于情感词典的python情感分析

心不动则不痛 提交于 2020-08-17 03:52:50
近期老师给我们安排了一个大作业,要求根据情感词典对微博语料进行情感分析。于是在网上狂找资料,看相关书籍,终于搞出了这个任务。现在做做笔记,总结一下本次的任务,同时也给遇到有同样需求的人,提供一点帮助。 1、情感分析含义 情感分析指的是对新闻报道、商品评论、电影影评等文本信息进行观点提取、主题分析、情感挖掘。情感分析常用于对某一篇新闻报道积极消极分析、淘宝商品评论情感打分、股评情感分析、电影评论情感挖掘。情感分析的内容包括:情感的持有者分析、态度持有者分析、态度类型分析(一系列类型如喜欢(like),讨厌(hate),珍视(value),渴望(desire)等;或着简单的加权极性如积极(positive),消极(negative)和中性(neutral)并可用具体的权重修饰)、态度的范围分析(包含每句话,某一段、或者全文)。因此,情感分析的目的可以分为: 初级 :文章的整体感情是积极/消极的; 进阶 :对文章的态度从1-5打分; 高级 :检测态度的目标,持有者和类型。 总的来说, 情感分析就是对文本信息进行情感倾向挖掘 。 2、情感挖掘方法 情感挖掘目前主要使用的方法是使用情感词典,对文本进行情感词匹配,汇总情感词进行评分,最后得到文本的情感倾向。本次我主要使用了两种方法进行情感分析。第一种:基于BosonNLP情感词典

RPA+AI,办公场景下的繁琐事能放心交给机器人吗?

爱⌒轻易说出口 提交于 2020-08-17 02:58:54
  近年来,随着诸多企业完成数字化转型升级,RPA 应用越来越受关注,RPA 是机器人流程自动化的简称,即以软件机器人及人工智能为基础的一种业务过程自动化技术。   以一个中大型企业最日常的财务报销审核工作为例,如果财务人员人工操作,可能每天都要面对成百上千张的报销凭证和报销单进行处理,不仅工作量大、重复性高,而且还经常被其他部门抱怨效率慢,但如果有了 RPA 工具,我们就可以把繁琐枯燥的工作交给这个虚拟机器人完成,自动进行信息的提取、核对等操作,而且可以 7X24 小时不间断工作,财务人员只需进行关键结果的确认即可,各个部门之间的协作效率得以大幅提升。      图|政企审批服务系统 RPA 流程   而我们企业日常工作流程中可能不只是财务部门,很多部门都涉及到各种文档资料、图表、总结报告、申报表单等流程,对 RPA 的灵活运用足以产生更大的降本增效的价值。   作为中国本土的 AI+RPA 企业,达观数据目前专注在自然语言处理技术和 RPA 相结合的自动化软件研发方向,在最新的技术方向上还融合了 OCR 等计算机视觉技术,其文本智能处理技术和商业应用逐渐得到了资本和市场的青睐。   2020 年 5 月份,达观数据宣布新完成 2.7 亿元 B+ 轮融,DeepTech 采访到达观数据董事长兼 CEO 陈运文,进行了一些行业交流。    本土 RPA 赛道投融资升温  

智能标注原理揭秘,一文读懂人工智能如何解决标注难题

こ雲淡風輕ζ 提交于 2020-08-17 00:34:01
无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如 ImageNet,COCO 等。 对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制 AI 模型应用,以保证其能够更好地应用在业务中。因此, 业务场景数据的采集和标注也是在实际 AI 模型开发过程中必不可少的重要环节。 数据标注的质量和规模通常是提升 AI 模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。 图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架 主动学习(ActiveLearning,AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。 其中,算法负责挑选对训练 AI 模型价值更高的样本,而用户则标注那些挑选出来的样本。如“Human-in-the