语音识别

[转载]HMM+GMM语音识别技术

自作多情 提交于 2019-11-29 21:34:51
仅做备份 原文链接:https://blog.csdn.net/fandaoerji/article/details/44853853 ———————————————— HMM+GMM语音识别技术详解级PMTK3中的实例 本人正在攻读计算机博士学位,目前一直再学习各种模型啊算法之类的。所以一直想把自己的学习过程总结一下,所以就开通了这个博客。 这两天一直再看语音识别方面的知识,想把自己的理解总结一下,希望对其他学习的人有所帮助。 提前需要掌握的知识: 语音信号基础:语音信号的表示形式、分帧、特征(MFCC)、音素等等 HMM模型:离散隐马尔科夫模型级3个问题的求解方法 GMM:混合高斯模型,用于连续隐马尔科夫模型。 语音数据处理 语音信号计算机中是采用PCM编码按时间序列保存的一连串数据。计算机中最原始语音文件是wav,可以通过各种录音软件录制,录制是包括三个参数 fs:采样率 8000Hz 115200Hz 等等,代表每1秒保存的语音数据点数 bits:每个采样点用几个二进制保存 通道:很多音频都有左右2个通道,在语音识别中通常有一个通道的数据就够了。 下面是一个 apple.wav 文件在matlab中的例子: [x fs bit]=wavread('apple.wave'); plot(x); -------------- fs =8000 bits =16 --------

语音识别—前端录音上传服务器进行语音识别

房东的猫 提交于 2019-11-28 07:20:29
采用前端录音,Websocket搭建Node服务器,音频对象Blob使用Websocket传给后端服务器后写入本地音频文件,然后调用百度AI语音识别本地音频文件,最后将识别结果传给前端显示。 百度语音识别 查看文档知道了我想要的信息,如果想要实现实时语音识别、长时间段的语音、唤醒词功能、语义解析功能,需要使用 Android 、 IOS SDK 或者 Linux C++ SDK 版本,而我使用的 Nodejs SDK 是不支持的。 1、规格参数要求 语音时长上线为60s,超出讲返回错误 原始录音文件为 pcm 、 wav 或者 amr 格式,不区分大小写,推荐使用 pcm 录音采样率为16000,声道为单通道 支持普通话、英文、粤语、四川话 项目结构 调用百度AI平台语音识别的 Nodejs SDK ,查看 文档 快速入门,可以查看如何调用。 首先将 nodejs-sdk 下载下来,下载后将目录里的 speech 文件夹拷贝到你的项目文件夹中,其中 assets 是存放录音音频的地方,然后进入 node 文件夹下的位置进行安装依赖包: npm install 我的项目文件夹目录如下: audio_asr_baidu ├─ package-lock.json └─ speech ├─ .gitignore ├─ assets │ ├─ 16k_test.pcm │ └─

浅谈cloud computing云计算

半世苍凉 提交于 2019-11-27 12:38:34
云计算的概念 云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。 很多朋友都想问,云计算是什么?听起来好像很厉害欸!我先举一个很抽象化的近似于生活的例子来初步告诉大家什么是云计算。 比如说,在大街上面,有一个人叫你,你可以轻松地应他一声“哎”,现在,大街上有三个人叫你,你也可以分别对着三个人的方向回答他们“哎,哎,哎”。但是,如果大街上有一百个人同时叫你,你还能准确地答应他们吗?我表示我 应该 连头转哪边都不清楚了。如果现在街上有几万人、几十万人、几亿人叫你呢?这,就是云计算需要处理的问题了。再想象一下,如果你会分身,你分身成无数个人来处理叫你的人的数据,这些分身最后再将所有处理好的数据交付给你,然后你再负责处理接下来的数据,那运算起来,不就简单多了吗?没错,云计算正是实现了这一想法。 那么,很多人就想问了,云计算是怎么实现这一想法的呢?我就拿一项技术来举例说明吧。 语音识别技术

原来华为手机的语音助手这么好用,说话即可语音翻译,方便又实用

痞子三分冷 提交于 2019-11-27 03:25:28
随着国产手机产商激烈的竞争,现在如今华为手机可以说是国产手机的领军人物,华为手机的用户也是满大街都是,就算你想换手机,你的朋友第一个推荐的也是华为手机,华为手机能这么深得人心的原因主要是手机口碑好,还有就是实用性强。 使用华为手机的大多都是上班族,而华为手机就有很多能帮你提高工作效率的功能,比如语音中英文即时翻译,随着经济全球化的发展,使用外语的频率会比较高,但是你的的外语又不是很好,而华为语音助手就可以很好的帮助你完成语音翻译的任务。 语音助手翻译 首先我们对着手机说:“你好,小艺”,这时候华为语音助手就会被唤醒,然再说:帮我翻译,就会跳转到语音翻译界面,这时候你设置好需要翻译的语言,对着说话就可以翻译出你需要的语言啦。 2. 使用专业工具翻译 首先我们在手机应用市场和浏览器找到录音转文字助手这款语音翻译神器。下好后,我们在手机桌面打开这款工具,在工具主页面我们可以看到有录音识别、音频识别、语音翻译、录音机四个功能。 这里我们需要语音中英文翻译,所以我们点击语音翻译选项,当跳转到语音翻译操作界面后,我们可以看到主页下有中文、English两个按钮。 当我们需要把中文翻译成英文的时候,就点击中文按钮,然后对着说话就行了,工具就会把你的话翻译成英文显示出来啦。 当我们需要把英文语音翻译成中文的时候,就点击English按钮,对着工具说话,工具就会把你说过的话识别成中文显示出来啦。

DNN-HMM语音识别的声学模型

一笑奈何 提交于 2019-11-26 20:14:38
基于DNN-HMM的语音识别声学模型结构如下图所示,与传统的基于GMM-HMM的声学模型相比,唯一不同点在于用DNN替换了GMM来对输入语音信号的观察概率进行建模。DNN与GMM相比具有如下优点: DNN不需要对声学特征所服从的分布进行假设; DNN的输入可以采用连续的拼接帧,因而可以更好地利用上下文的信息; DNN的训练过程可以采用随机优化算法来实现,而不是采用传统的批优化算法,因此当训练数据规模较大时也能进行非常高效的训练,显然,训练数据规模越大,所得到的声学模型就越精确,也就越有利于提高语音识别的性能; 在发音模式分类上,DNN这种区分式模型也要比GMM这种产生式模型更加合适。 DNN的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如MFCC、PLP或更底层的滤波器组(filter bank,FBK)声学特征等。FBK特征多利用Mel滤波器组在功率谱上进行滤波并计算对数能量,然后采用其规整值来表示。目前,FBK特征获得了广泛的成功,证明了原始语音频率对于基于DNN的语音识别技术的重要性。与传统的GMM采用单帧特征作为输入不同,DNN将相邻的若干帧进行拼接来得到一个包含更多信息的输入向量。研究表明,采用拼接帧作为输入是DNN相比GMM能获得明显性能提升的关键因素之一。 DNN输出向量的维度对应HMM中状态的个数,通常每一维输出对应一个绑定的triphone状态

首场百度大脑开放日来袭 | 全新开放24项AI技术

寵の児 提交于 2019-11-26 18:45:54
活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。 1PaddlePaddle:用深度学习赋能智能+的方方面面 1、业界首个视频分类模型库:新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。 2、基于PaddlePaddle的BERT多机多卡和混合精度训练。新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。 3、分布式训练性能大幅提升:大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。 并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍,PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性,支持可定制的并行扩展,覆盖DQN

首场百度大脑开放日来袭 | 全新开放24项AI技术

别说谁变了你拦得住时间么 提交于 2019-11-26 18:45:44
活动当天,百度AI技术生态部总经理喻友平,就百度大脑平台与生态进行了全面的详解,同时展示了百度大脑开放平台Q1核心升级内容,包括语音技术、视觉技术、自然语言处理、知识图谱等通用AI能力的新近推出,以及开源深度学习框架方面的优化升级,更有多个应用场景案例与大家分享,可谓干货满满,广受前来参加活动的开发者与媒体们欢迎与称赞。 1PaddlePaddle:用深度学习赋能智能+的方方面面 1、业界首个视频分类模型库:新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高效配置模型完成训练和评测。视频理解权威竞赛ActivityNet - Kinetics视频动作识别任务冠军方法stNet的resnet50版本开源实现。 2、基于PaddlePaddle的BERT多机多卡和混合精度训练。新增支持NLP语义表示BERT模型,支持多机多卡训练,支持混合精度训练,训练速度对比主流实现提升50%+,提供完整部署示例。 3、分布式训练性能大幅提升:大规模稀疏参数服务器Benchmark发布, CPU多机异步训练发布显著提升点击率预估任务IO吞吐的built-in reader,多机多卡训练性能多方面提升。 并推出业界领先的深度强化学习框架PARL1.0。据喻友平介绍,PARL曾在NeurIPS 2018 夺冠。具有高灵活性和可扩展性,支持可定制的并行扩展,覆盖DQN

伟大的学习资源们

做~自己de王妃 提交于 2019-11-26 17:15:47
1. Attention系列 《Attention is All You Need》 简介+代码 Attention Is All You Need(Transformer)算法原理解析 以Attention为例谈谈两种研究创新模式 Attention的套路 自然语言处理中的Attention机制总结 Attention在自然语言处理中的应用 图解Transformer 2. 语音识别系列 语音识别中深度学习训练准则 最牛逼的CTC讲解之一 最牛逼的CTC讲解之二 HMM状态绑定算法讲解之一 HMM状态绑定算法讲解之二 GMM-HMM kaldi语音识别的资料 3. 深度学习中伟大的blogs Distill MLMastery Ruder Colah 动手学深度学习教程——理论全面,代码详实 4. 其他 SRU的CUDA工程优化加速计算 来源: https://www.cnblogs.com/machine-lyc/p/11328787.html

Python 语音识别

霸气de小男生 提交于 2019-11-26 01:22:49
调用科大讯飞语音听写,使用 Python 实现语音识别,将实时语音转换为文字。 参考这篇 博客 实现的录音,首先在官网下载了关于语音听写的 SDK ,然后在文件夹内新建了两个 .py 文件,分别是 get_audio.py 和 iat_demo.py ,并且新建了一个存放录音的文件夹 audios ,文件夹内存放录音文件 input.wav ,我的整个文件目录如下: asr_SDK(文件名) ├─ Readme.html ├─ audios │ └─ input.wav(存放音频) ├─ bin │ ├─ gm_continuous_digit.abnf │ ├─ ise_cn │ ├─ ise_en │ ├─ msc │ ├─ msc.dll (因为我是32位的python,所以用的这个动态链接库) │ ├─ msc_x64.dll │ ├─ source.txt │ ├─ userwords.txt │ └─ wav ├─ doc ├─ get_audio.py ├─ iat_demo.py ├─ include ├─ libs ├─ release.txt └─ samples 一、录音 这里使用的是 pyaudio 进行录音,需要下载相关的轮子,具体可参考我的另一篇 博客 。然后根据自己的需要进行了修改, gt_audio.py 全部代码如下: import pyaudio

业务领域建模Domain Modeling

余生长醉 提交于 2019-11-25 21:59:53
我的工程实践题目是面向银行领域的自然语言理解系统设计,下面通过类图描述该项目的业务领域。 Collect application domain information (1) 系统提供的服务有四大类包括:贷款、信用卡、理财和金融。 (2) 每个业务有不同的语料库,每个语料库中有不同类型的问题的多种问询语句以及它们的解答语句。 (3) 根据不同的语料库训练不同的模型。 (4) 用户在使用时,系统首先语音询问用户要选择哪类服务,得到用户答复后调用对应的模型,准备工作。 (5) 用户语音输入后,系统调用语音识别API,生成文本数据喂给模型进行分类以找到对应的问题。 (6) 从数据库中匹配对应问题的答复语句,最后通过语音回复用户。 Brainstorming 名词:用户、贷款、信用卡、理财、金融、业务、语料库、问询语句、解答语句、模型、语音识别API、文本数据。 动词:语音输入、语音输出、语音识别、选择模型、生成文本数据、分类、寻找、匹配。 “...是...”表达式:贷款、信用卡、理财、金融是业务。 “...分成...”、“...组成...”表达式:语料库由问询语句和解答语句组成。 Classifying the domain concepts into 类 属性 用户 业务、模型、问询语句 语音 语音识别API、文本数据 处理 文本数据、模型 语料 语料库 交互 询问语句、解答语句