语音识别

基于隐马尔可夫模型的有监督词性标注

旧城冷巷雨未停 提交于 2020-11-08 11:21:42
版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/yutianzuijin/article/details/33292841 代码下载: 基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每一个词都指派一个合适的词性,也就是要确定每一个词是名词、动词、形容词或其它词性的过程,又称词类标注或者简称标注。 词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的很多领域都发挥着关键的数据。 词性标注本质上是一个分类问题,对于句子中的每一个单词W。找到一个合适的词类类别T,也就是词性标记,只是词性标注考虑的是总体标记的好坏,既整个句子的序列标记问题。对于分类问题,有非常多现成的数学模型和框架能够套用。譬如HMM、最大熵模型、条件随机场、SVM等等。在本博客中我们介绍基于隐马尔可夫模型(HMM)的词性标注。 1 隐马尔可夫模型(HMM) 隐马尔科夫模型(HMM)是什么?说白了。就是一个数学模型,用一堆数学符号和參数表示而已,包含隐藏状态集合、观察状态集合、初始概率向量, 状态转移矩阵A。混淆矩阵B。 在 wiki上一个比較好的HMM样例 ,浅显易懂地介绍了HMM的基本概念和问题,初次接触HMM的人能够首先看一下这个样例。 在 Hidden

10分钟标注数据胜过一年前的960h,FAIR新研究实现语音识别大进展(模型已开源)

此生再无相见时 提交于 2020-11-07 12:38:59
近日,来自 FAIR 的研究者提出结合自训练和无监督预训练执行语音识别任务,证明这两种方法存在互补性,并取得了不错的结果。 选自arXiv,作者:Qiantong Xu等,机器之心编译,编辑:魔王。 自训练和无监督预训练成为使用无标注数据改进语音识别系统的有效方法。但是,我们尚不清楚它们能否学习类似的模式,或者它们能够实现有效结合。 最近,Facebook 人工智能研究院(FAIR)一项研究展示了,伪标注和使用 wav2vec 2.0 进行预训练在多种标注数据设置中具备互补性。 只需来自 Libri-light 数据集的 10 分钟标注数据和来自 LibriVox 数据集的 5.3 万小时无标注数据,该方法就能在 Librispeech clean 和 other 测试集上取得 3.0%/5.2% 的 WER(词错率),甚至打败了仅仅一年前基于 960 个小时标注数据训练的最优系统。在 Librispeech 所有标注数据上训练后,该方法可以达到 1.5%/3.1% 的词错率。 论文链接: https:// arxiv.org/pdf/2010.1143 0.pdf 论文简介 近期,基于标注语音数据的语音识别模型取得了显著进展。但这些模型存在一个缺陷:它们需要大量标注数据,而这些数据仅针对英文和少数几种语言。因此,纯监督式的训练对于全球 7000 种语言中的绝大多数是不可行的

HMS Core电商解决方案发布 华为携手开发者共探电商增长之道

末鹿安然 提交于 2020-11-04 08:08:02
随着电商行业连接关系的重构、数字化加速及供应链完善等诸多变化,电商应用如何引入新的流量来源、保持平台的高速增长,如何挖掘跨境电商增长动力成为行业关注要点。在10月27日举行的主题为“新场景 新引擎 新体验”HMS Core. Sparkle电商创新沙龙上,华为HMS Core电商解决方案正式发布,为电商从业者提供了解题新思路。同时围绕HMS Core提供的华为软硬件能力和云端能力全面开放能力,华为携手权威数据机构和头部电商平台,为开发者带来了一场应用创新的盛宴,为电商应用提供持续创新的动力,升级消费者网购体验。 现在,电商行业的角逐主要集中在用户流量的引流和转化上,用户获取及激活、注册登录、商品选购及比价、商品下单购买等每一个环节,都存在着“弯道”。而随着5G、AI、虚拟现实技术的日趋成熟,推动着电商行业的持续更迭,消费者越来越寻求更新鲜、更智能的消费体验,这给开发者及电商平台面带来了更多的挑战。会上,华为电商领域的专家指出HMS Core电商解决方案将在精准营销、智能购物、视觉体验上全面赋能电商开发者,让用户体验更有趣的电商购物,让电商伙伴更加高效精准地获取用户流量。 基于HMS Core打造的创新电商方案覆盖到了整个电商业务流,在用户获取及激活阶段,HMS Core助力广告精准触达并推送给相应的用户群体;在用户注册登录阶段,能够保证用户快速且安全的注册登录;在商品选购/比价阶段

《智能革命:迎接人工智能时代的社会、经济与文化变革》笔记

左心房为你撑大大i 提交于 2020-11-02 05:50:11
关注 涛涛CV ,设 为 星标 ,更新 不 错过 ------------------------------------------- 《智能革命:迎接人工智能时代的社会、经济与文化变革》笔记 通过这个读书笔记,可以快速掌握该书里面的核心观点,为您节省理解阅读的时间。个人觉得该书很好,所以将精华笔记内容推荐给大家,让大家快速理解该书的表达内容与思路,共同学习、共同进步、互帮互助。 作者:李彦宏 简介: 人类历史上的历次技术革命,都带来了人类感知和认知能力的不断提升,从而使人类知道更多,做到更多,体验更多。以此为标准,李彦宏在本书中将人工智能定义为堪比任何一次技术革命的伟大变革,并且明确提出,在技术与人的关系上,智能革命不同于前几次技术革命,不是人去适应机器,而是机器主动来学习和适应人类,并同人类一起学习和创新这个世界。“人工智能”正式写入2017年政府工作报告,折射出未来人工智能产业在我国经济发展与转型中的重要性。本书内容涵盖了人工智能发展的主要领域,刻画了人工智能未来发展的场景和商业模式,对我国各行各业应对智能化转型提供了很好的指引和借鉴。 141 个笔记: ◆ 自序 >> 全世界都在为即将到来的人工智能革命感到振奋。这种情绪就仿佛二十多年前我在硅谷亲历互联网大潮初起时所感受到的。 >> 搜索引擎一直在推升计算机科学的天花板。几乎计算机科学的每一个层面,从硬件到软件的算法

HMS Core电商解决方案发布 华为携手开发者共探电商增长之道

故事扮演 提交于 2020-10-29 20:20:29
随着电商行业连接关系的重构、数字化加速及供应链完善等诸多变化,电商应用如何引入新的流量来源、保持平台的高速增长,如何挖掘跨境电商增长动力成为行业关注要点。在10月27日举行的主题为“新场景 新引擎 新体验”HMS Core. Sparkle电商创新沙龙上,华为HMS Core电商解决方案正式发布,为电商从业者提供了解题新思路。同时围绕HMS Core提供的华为软硬件能力和云端能力全面开放能力,华为携手权威数据机构和头部电商平台,为开发者带来了一场应用创新的盛宴,为电商应用提供持续创新的动力,升级消费者网购体验。 现在,电商行业的角逐主要集中在用户流量的引流和转化上,用户获取及激活、注册登录、商品选购及比价、商品下单购买等每一个环节,都存在着“弯道”。而随着5G、AI、虚拟现实技术的日趋成熟,推动着电商行业的持续更迭,消费者越来越寻求更新鲜、更智能的消费体验,这给开发者及电商平台面带来了更多的挑战。会上,华为电商领域的专家指出HMS Core电商解决方案将在精准营销、智能购物、视觉体验上全面赋能电商开发者,让用户体验更有趣的电商购物,让电商伙伴更加高效精准地获取用户流量。 基于HMS Core打造的创新电商方案覆盖到了整个电商业务流,在用户获取及激活阶段,HMS Core助力广告精准触达并推送给相应的用户群体;在用户注册登录阶段,能够保证用户快速且安全的注册登录;在商品选购/比价阶段

入门声纹技术(二):声纹分割聚类与其他应用

拥有回忆 提交于 2020-10-27 12:19:00
声纹识别技术是声纹技术中最为核心的一项,和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。 在10月19日的分享中,谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识,并详细阐述深度学习时代最前沿的声纹识别模型,包括各种推理逻辑和损失函数的设计思路,以及数据处理方面的相关话题。第一讲回顾: 【机器之心】入门声纹技术第一讲_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 但是许多人误以为声纹技术等价于声纹识别,却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在 「从算法到应用,入门声纹技术」系列分享的第二讲中 ,王泉老师将着重介绍声纹技术除声纹识别之外的其他应用,声纹分割聚类便是其中最具代表性的应用,也就是关于「谁在什么时间说了什么」这个问题的答案。 10月26日,第二期分享 声纹分割聚类与其他应用 https:// u.wechat.com/MJznHqiyMH RcPKzhMIwL1K0 (二维码自动识别) 分享主题: 声纹分割聚类与其他应用 分享嘉宾: 王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人,《声纹技术:从核心算法到工程实践》一书作者。在谷歌任职期间,作者带领其团队将先进的声纹技术部署到了大量产品中

金融科技思考笔记

社会主义新天地 提交于 2020-10-26 08:46:39
一、关于流量 渠道分类 平台引流 生态截流 金融的经营模式从以网点为驱动、以卡片为载体转变为以APP为核心。APP取代物理卡是不可逆转的时代趋势,是客户行为的进化,我们能做的就是跟上客户的脚步,把APP建设成为客户经营和服务的主平台。 二、关于AI能力建设 1、“智慧金融大脑”是数字化转型的核心驱动力 以客户体验为中心,以数据为驱动,以新技术应用为引擎,整合共享内外部数据,通过跨领域的交叉分析与深度挖掘,动态感知市场需求、经营状况、发展趋势,指导产品快速创新,优化重构流程,实现智能服务。 1)底层能力:人工智能、区块链、云计算、大数据 2)前台智能化:智能服务 (智能运营、智能营销、智能风控、智能客服、智能投顾) 3)后台数字化:智能引擎(金融大脑) 3.1)思维引擎:学习能力、分析能力、预测能力 3.2)感知引擎:听-语音识别,看-人脸识别、读-自然语言处理、说-语音合成 三、关于平台 1、光行云缴费 流量汇集、数据聚集、资金归集的战略性平台。服务BCG,发挥云缴费流量入口、综合场景平台作用,构建“生活+服务+金融”普惠金融生态圈。 云缴费综合金融方案实施策略: 1)健全账户体系(直销银行电子账户体系) 2)指定客户权益规则(与全行积分体系合作) 3)引入代销金融产品(与零售、资管类产品合作) 4)建立客户数据模型(云缴费自建客户征信体系) 5)引入融资类产品

《大数据产业发展规划》(2016-2020年)安全相关内容摘录

痞子三分冷 提交于 2020-10-24 01:42:39
【注】原文在 http://www.miit.gov.cn/n1146295/n1652858/n1652930/n3757016/c5464999/content.html 我认为,大数据安全分为两个层面的问题,缺一不可:1)大数据自身的安全,这个是大数据发展的基础;2)将大数据技术应用于信息网络安全领域,也就是大数据对网络安全的支撑能力,这个是大数据发展的动力和目标。 大数据产业发展规划 (2016-2020年) 数据是国家基础性战略资源,是21世纪的“钻石矿”。党中央、×××高度重视大数据在经济社会发展中的作用,党的十八届五中全会提出“实施国家大数据战略”,×××印发《促进大数据发展行动纲要》,全面推进大数据发展,加快建设数据强国。“十三五”时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键时期,全球新一代信息产业处于加速变革期,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。抢抓机遇,推动大数据产业发展,对提升政府治理能力、优化民生公共服务、促进经济转型和创新发展有重大意义。为推动我国大数据产业持续健康发展,深入贯彻十八届五中全会精神,实施国家大数据战略,落实×××《促进大数据发展行动纲要》,按照《国民经济和社会发展第十三个五年规划纲要》的总体部署,编制本规划。 一、我国发展大数据产业的基础 大数据产业指以数据生产、采集

阿里云峰会 | 来听听达摩院技术专家是怎么讲智能外呼机器人技术

心已入冬 提交于 2020-10-23 17:45:32
近日,在2020阿里云“全速重构”峰会上,阿里巴巴副总裁许诗军提到一个数字“11182”,在海口抗疫期间,利用AI技术在2小时内完成11182次外呼,极大提升防疫人员工作效率,而这背后正是智能外呼机器人技术的应用。 阿里云通信智能外呼机器人是通过呼叫控制,结合阿里达摩院语音转文本(ASR)、语音合成(TTS)、自然语言处理(NLP/NLU)等技术手段以及阿里云大数据能力,针对传统客户服务领域外呼难题,推出的智能呼叫产品。 企业通过阿里云智能外呼机器人可以实现企业服务流程打通,通过简单界面配置操作即可完成复杂的外呼场景。企业可根据实际业务场景编排外呼使用的文字内容,机器人通过外呼任务和预置的文字内容自动触达用户,通过外呼机器人来完成技术水平低、重复度高的工作,不仅节省成本,也提升了工作效率与收入。 用户在接通电话后,AI外呼语音会根据预设的对话策略选择相应文字内容,通过语音合成技术TTS转换为语音播放给用户,当用户回应后,通过智能语音识别技术ASR翻译成文字,机器人对文字进行语义分析理解后,根据知识图谱和对话策略再选择对应文字内容,再通过自然语言生成技术生成文本,最后通过语音合成生成语音响应客户,完成一轮通话交互。 智能外呼机器人可广泛应用于电商、汽车、教育、IT、餐饮、政务、旅游等各个行业领域,实现客户意向的确认、客户信息确认、活动通知、产品销售、满意度调查等业务

澳大利亚内政部采用Unisys Stealth(identity)™和IDEMIA Biometrics的新生物识别系统上线

走远了吗. 提交于 2020-10-23 03:54:25
Unisys 提供新的企业生物识别服务系统,以加快旅客过境处理,并提高内政部识别犯罪分子和破坏国家安全利益的人员的能力。 澳大利亚堪培拉和宾夕法尼亚州蓝铃--(美国商业资讯)-- Unisys Corporation (NYSE: UIS)和 IDEMIA 今日宣布,澳大利亚内政部(Australian Department of Home Affairs)新的企业生物识别服务(EBIS)系统已投入使用。EBIS基于 Unisys Stealth(identity)™ 多重身份管理和验证解决方案构建,并使用IDEMIA的人脸和指纹识别算法,是用于签证和边境处理的全球最精确的生物特征身份管理系统之一,可确保澳大利亚的边境安全,以及加快合法旅客的流动。 此新闻稿包含多媒体内容。完整新闻稿可在以下网址查阅: https://www.businesswire.com/news/home/20200603005403/en/ 澳大利亚内政部将使用EBIS来匹配验证希望前往澳大利亚的人员(例如签证申请人)的面部图像和指纹,以及公民身份申请人的面部图像。该系统同时能够加快合法旅客的过境处理,致力于助推未来十年签证申请、边境通关和公民身份申请的预期增长。 2019年,澳大利亚的年度游客人数创下纪录,达到950万人次,比10年前增加390万,也比上一年增加22.03万1。为了方便旅客旅行