语音识别

任务型对话(一)—— NLU/SLU(意图识别和槽值填充)

我的梦境 提交于 2020-08-10 05:46:32
1,概述   任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品。通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下:        整个pipline由五个模块组成:语音识别;自然语言理解;对话管理;自然语言生成;语音合成。现在越来越多的产品还融入了知识库,主要是在对话管理模块引入。在这里除了语音识别和语音合成模块不属于自然语言处理范畴且属于可选项之外,其他的三个模块都是必要的。   自然语言理解(NLU):主要作用是对用户输入的句子或者语音识别的结果进行处理,提取用户的对话意图以及用户所传递的信息。   对话管理(DM):对话管理分为两个子模块,对话状态追踪(DST)和对话策略学习(DPL),其主要作用是根据NLU的结果来更新系统的状态,并生成相应的系统动作。   自然语言生成(NLG):将DM输出的系统动作文本化,用文本的形式将系统的动作表达出来。   我们接下来将会详细讨论这四个模块(NLU,DST,DPL,NLG)。 2 意图识别和槽值填充   举一个简单的例子,以一个询问天气的任务型对话为例,根据专家知识,我们会预先定义该任务的意图和相应的槽,这句话该怎么理解呢?   比如用户输入:“今天深圳的天气怎么样?”,此时用户所表达的是查询天气,在这里我们可以认为查询天气就是一种意图,那具体查询哪里的天气,哪一天的天气

热了好多年,其实物联网刚刚迈过谷底~

百般思念 提交于 2020-08-10 00:10:55
全球最具权威的IT研究与顾问咨询公司Gartner,发布了全球《2019物联网技术成熟度曲线》。在2019年7月,全球物联网技术已经历完过热期,进入了幻想破灭期,快到谷底了。 (图源自Gartner) Gartner曲钱实际是两条曲线的叠加。一条是反映商家炒作概念、融资及公众对技术的虚高期望值的“泡沫曲线”,另一条是生产商、技术和商业的成熟验证发展曲线。新技术多数在初起时,都会被炒作到顶点,随之泡沫慢慢被吹散,进入“谷底”阶段,后面逐渐稳定成长。 ( 图源自 Gartner ) 在物联网的狂热期,商界的炒作、噱头上市融资;政府、企业的概念,年青人的新潮。典型的共享单车风靡全国,智能音箱响遍大地,AR穿戴设备,无人驾驶好象就在实现……。热浪过后,在2017~2019年,人们发现有些是技术本身不成熟,像通信的覆盖不完整、现有无线传输的出错率高和时延过大等;有些是忽视了的安全问题,如数据隐私、恶意入侵、朔源可查、WiFi摄像头、人脸识别、语音识别等,导致出错甚至信息诈骗丛生;有些是家用电器智能化标准的不统一,每个品牌画地为牢,只选择本品牌的整套方案。不同品牌的家电产品,无法互联互通互控;人们有的需求不明确甚至非理性等;再加上一些商业运行模式的困惑,如“羊毛长在狗身上,猪买单”、融资、上市、砸钱抢地盘、抢数据等。一旦资金链断裂,技术局限和缺点暴露,出现负面报道,导致人们的兴趣逐渐减弱

5G带动VR发展

亡梦爱人 提交于 2020-08-09 17:09:28
对于5G的定义,很多人认为就是网络速度比4G更快一些,延时性相比4G更低。事实上,5G的用途更着重科技领域,不只是上网速度的更迭。通过技术改变和提升日常生活的节奏和效率,才是5G通信技术未来发展的实际意义。而在5G的推广和普及的过程中,5G也会带给我们更多的创业机会。5G的逐步落地,让每个制造行业都受到了全新的改革,VR制造行业在此也得到了全面的爆发。 VR技术对于图象的要求有一定的规范,导致相关的图片以及视频等素材的存储量过大,但随着5G的来临,VR在传输问题上得到了全面的打通,VR技术在手机端的应用也得到了解决。 如果想要有良好的VR体验那么对网络要求也是很高的。当下的体验环境体验者过于沉浸VR会产生眩晕不适,除了身体产生不适这个问题以外,语音识别技术、视线追踪技术、手势感应等技术都会进行提升。因此,5G的来临不但提高了虚拟的体验感受,还将扩展出全新升级的应用领域,真正让VR充分发挥在移动端的优点,解决更多的生活不便之处。 毋庸置疑在5G来临的情况下,VR全景制造行业会得到全方位的暴发,打造出一个全新的时代。 来源: oschina 链接: https://my.oschina.net/u/4383286/blog/4480175

Milvus 实战|生物多因子认证系列 (一):声纹识别

心不动则不痛 提交于 2020-08-09 01:08:34
| 什么是声纹识别 声纹识别(又称说话人识别)是从说话人发出的语音信号中提取声纹信息,并对说话人进行身份验证的一种生物识别技术。简单来说,声纹识别技术可以“确认说话人是谁”。我们说话的时候,每个人的发音器官、发音通道和发音习惯上都有个体差异,声纹识别技术就是为了识别出说话人之间的这些差异。需要注意的是, 声纹识别 不同于常见的 语音识别 [1]: 语音识别:是共性识别,能听懂人的说话内容,即“你说了什么?”。 声纹识别:是个性识别,能判断说话人是谁,即“说话人是谁?”。 | 声纹识别模型 背景 声纹识别的本质,就是要找到描述特定对象的声纹特征 (feature),声纹特征类似于虹膜、指纹等,是一种独特的生物特征。至于特征提取方法,按照发展历程有模板匹配、高斯混合模型 (GMM) 、联合因子分析法 (JFA) 、深度神经网络方法等[2]。在深度神经网络之前出现的方法基本可以认为是传统方法。传统方法通常用精确的数学模型对声音信号进行特征提取,而深度神经网络通过模型训练获得声纹特征。研究表明:相较于传统方法,利用深度学习的方法在识别准确率上获得了显著的提高。本文用到的声纹特征就是基于深度学习模型得到的。 特征提取 Deep Speaker[3] 是百度发布的一个基于神经网络的说话人嵌入系统,其基本思想是将说话人的语音映射到一个超平面,从而可以通过余弦相似度取来衡量说话人的相似度。 上图是

为AI生成内容“正名”:从“深度伪造”到“深度合成”

折月煮酒 提交于 2020-08-08 19:20:59
云栖号资讯:【 点击查看更多行业资讯 】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 编者按:本文来自微信公众号“脑极体”(ID:unity007),作者:海怪,36氪经授权发布。 在世人对AI的“邪恶性”进行攻诘的浪潮中,AI造假,可能已经是现在排首位的理由了。 自从2017年Deepfake(深度伪造)横空出世以后,人们惊呼原来AI在造假方面简直天赋异禀。此后“AI生成内容”技术,特别是GAN算法的突飞猛进更加印证了这一事实。不仅仅是AI换脸,还有AI自动生成文本、语音、图像、视频等等一切数字内容。 除了AI换脸带来的色情视频泛滥之外,人们更进一步担心AI生成内容技术在隐私侵犯、威胁信息安全、操纵政治选举等方面带来全新挑战。 人们往往会假设,如果任由AI生成的内容在互联网中蔓延,将会更进一步冲毁互联网世界的真实性边界。 (被AI造假的扎克伯格“讽刺”自己的Facebook平台) Deepfake之后,真相何在? 如果哪些是真,哪些是假,普通人都难以分辨的时候,那么组成社会基石的真相和信任将就此坍塌,但我们似乎还没有做好活在“无信任社会”的准备吧。 德国哲学家康德在《实践理性批判》中论证“人为什么不能说谎”的法则,揭示了“无信任社会”的悖论和荒谬。假如“人人可以说谎”是一条社会的通行法则,那么,每个人都不会再信任另一个人说的话,这样说话人的谎言也就不会得逞

2020年后疫情时代人工智能的发展趋势

北城以北 提交于 2020-08-08 12:27:12
人工智能的发展经历了2016年AlphaGo打败人类后的狂热、2018年由于实际落地困难带来的失望、2019年Deepfake假视频等伦理问题显现,过去一年开始进入稳步落地阶段。在全球抗疫的大背景下,我们看到,医疗影像辅助诊断、服务机器人、新药开发等AI在医疗场景的应用未来有望加速。与此同时,随着健康码等联系人追踪应用的普及,以及国家明确数据成为数字经济时代生产要素,如何规范和促进数据使用成为发展人工智能的重要课题。我们认为,除了加速大数据立法以外,联邦学习、隐私计算等技术手段的普及也是加速后疫情时代人工智能发展的重要一环。 AI投资向中后期转移,或将迎来上市潮 随着AI技术和商业模式的逐渐成熟,我们看到2017年以来中国AI行业私募股权投资中,早期投资频次比例逐年下降、中后期投资比例则逐步提升,同时投资开始向头部的成熟企业集中,投资颗粒度不断变大。整体来看,资金主要投向计算机视觉、自然语言处理等技术,以及企业服务、机器人等应用场景。而2019年以来,我们看到AI投资更加关注芯片、服务机器人等硬件,以及企业数字化转型、工业互联网、零售等新场景。我们相信,随着科创板改革的深化,AI企业上市融资的政策条件已趋于成熟,AI公司或将在不久的将来迎来上市潮。 疫情期间,我们看到 AI请添加链接描述 已经在诊前、诊中、诊后全阶段中发挥重要作用:1)诊前:红外测温仪高效筛查体温异常者

人工智能产业发展深度报告:格局、潜力与展望

╄→гoц情女王★ 提交于 2020-08-08 07:42:09
人工智能(Artificial Intelligence,AI)是利用机器学习和数据分析方法赋予机器模拟、延 申和拓展类人的智能的能力,本质上是对人类思维过程的模拟。AI 概念最早始于 1956 年 的达特茅斯会议,受限于算法和算力的不成熟,未能实现大规模的应用和推广。近年来, 在大数据、算法和计算机能力三大要素的共同驱动下,人工智能进入高速发展阶段。据中 国电子学会预测,2022全球人工智能市场将达到1630亿元,2018-2022年CAGR达31%。 人工智能赋能实体经济,为生产和生活带来革命性的转变。人工智能作为新一轮产业变革 的核心力量,将重塑生产、分配、交换和消费等经济活动各环节,催生新业务、新模式和 新产品。从衣食住行到医疗教育,人工智能技术在社会经济各个领域深度融合和落地应用。同时,人工智能具有强大的经济辐射效益,为经济发展提供强劲的引擎。据埃森哲预测, 2035 年,人工智能将推动中国劳动生产率提高 27%,经济总增加值提升 7.1 万亿美元。 多角度人工智能产业比较 目前,全球人工智能产业的生态系统正逐步成型。依据产业链上下游关系,可以将人工智 能划分为基础支持层、中间技术层和下游应用层。基础层是人工智能产业的基础,主要提 供硬件(芯片和传感器)及软件(算法模型)等基础能力;技术层是人工智能产业的核心, 以模拟人的智能相关特征为出发点,将基础能力转化成人工智能技术

深度学习入门笔记(一):机器学习基础

人盡茶涼 提交于 2020-08-07 12:17:10
专栏——深度学习入门笔记 文章目录 专栏——深度学习入门笔记 本章内容 一.人工智能的机遇与挑战 二.机器学习 2.1 什么是机器学习 2.2 用机器学习解决问题的一般流程 2.3 数据预处理 2.4 特征工程 2.5 模型性能的评估与选择 三.深度学习的发展历程和应用 3.1 深度学习的发展历程 3.2 深度学习的应用 参考文章 本章内容 人工智能的发展及其面临的挑战 机器学习的基础知识和基本概念 特征工程的方法和流程 深度学习的发展及应用 1956年8月,约翰.麦卡锡在美国达特茅斯学院(Dartmouth College)发起的一次研讨会 上首次提出了“人工智能”这个概念。这次会议因此被公认为是人工智能诞生的标志。在之后60多年的时间里,人工智能的发展起起伏伏、忽“冷”忽“热”。2016年,AlphaGo与李世石的那场“世纪大战”彻底点燃了大众的热情。当前,人工智能成了一个“香饽饽”,很多国家都在积极争夺人工智能领域的话语权,各大公司也都不断加大在人工智能领域的投入。人工智能成为继个人电脑、互联网、移动互联网之后的又一 次浪潮,对于想要转行人工智能领域的人或者人工智能领域的从业者来说,当下就是一个不折不扣的黄金时代。作为解决人工智能领域中问题的工具,机器学习和深度学习目前正被广泛地学习和使用。 一.人工智能的机遇与挑战

创投观察 | 市场白热化前,RPA公司要怎么构建核心壁垒?

怎甘沉沦 提交于 2020-08-06 21:19:29
创投观察 | 市场白热化前,RPA公司要怎么构建核心壁垒? https://36kr.com/p/5220475 咏仪 · 2019-07-01 RPA的核心差异,以及未来壁垒的构建 本文是创投观察系列的第186篇 本文来自微信公众号:金沙江创投(微信ID:GSR-Ventures),原文标题《金沙江:RPA,撬动百亿美金的“无人经济”》;作者:张予彤;36氪经授权转载,编辑:咏仪。 编者注:本文作者张予彤,为金沙江创业投资基金的合伙人,专注于移动互联网以及人工智能领域早期公司的投资。她投资的项目,包括小红书、零零科技、深鉴科技、Moka HR、黑湖智造、云扩科技等。在加入金沙江之前,她组建并主导了趣加游戏的海外发行部门。张予彤拥有斯坦福大学的工程硕士学位以及清华大学的电子工程学士学位。 很多人在抱怨每天又忙又累,越活越像个机器人。因为每一份工作中,都有一部分机械性的事情,虽然无趣,但我们却不得不做。报销就是一个典型的例子:我们需要把发票按序整理,从中提取出日期、地点、商户、金额、报销类目,一一填入表单,无比烦琐。毕竟人不是机器,难免对重复单调的任务感到厌倦。人擅长做的是沟通交流,情绪感知,跨界思考。而规则明确的批量操作还是交给机器完成为好。所以我对于通过自动化(Automation)和智能化(Intelligence)去减少人们繁复的工作喜闻乐见。通过研究国内外的RPA

宜信OCR技术探索与实践|直播速记

随声附和 提交于 2020-08-06 21:10:42
宜信OCR技术探索与实践​|直播速记 ​ 宜信OCR技术探索与实践|完整视频回放 ​ ​ ​分享实录 一、OCR概述 1.1 OCR技术演进 传统图像,冈萨雷斯的图像处理。 信号处理、频域分析以及各类算法:SIFT、HOG、HOUGH、Harris、Canny…都很赞。 从2016年以后业界基本上都已经转向深度了,因为效果真的特别好。 1.2 OCR技术商业服务 身份证卡证类相对容易些,但是要做到复杂场景的,也不是那么容易。 发票、业务单据相对复杂,除了识别,更重要的是版面分析。 最近表格识别比较火,各家都在努力实现,微软的开放tablebank数据集 移动端backboneMobileNet,或者是tesseract+opencv 二、我们的业务场景 2.1 业务需求 满足业务是第一需要,不同于大厂,对外服务API,要求大并发那么强,多样性品类完备,我们更强调单品要做到尽量达到业务要求,更强调定制化,可以分布走,业务上可以给反馈不断改进。 2.2 识别过程中需要解决的问题 三、OCR算法详解 3.1 算法概述——分享原则 大家一定要自己弄细节,读代码、甚至自己动手撸,自己训练,调参,排错,才能有真正的体会和理解,只讲我认为每个算法里面不太好理解,重点,以及容易忽略的点,跟同行一起交流,沟通。 一个模型,要全面深入了解,需要: 目标、目的、意义是啥? 网络结构啥样? loss是啥?