语音识别

语音识别

百般思念 提交于 2020-03-07 13:54:36
语音识别 使用Intent调用语音识别程序 Android中主要通过RecognizerIntent来实现语音识别,其实代码比较简单,但是如果找不到语音识别设备,就会抛出异常ActivityNotFoundException,所以我们需要捕捉这个异常。而且语音识别在模拟器上是无法测试的,因为语音识别是访问google 云端数据,所以如果手机的网络没有开启,就无法实现识别声音的!一定要开启手机的网络,如果手机不存在语音识别功能的话,也是无法启用识别! 注意:使用前需要安装语音识别程序。如《语音搜索》,其使用的语音识别技术来自于Google,Intent可以识别到该程序。 其主要原理就是将语音发送到google云端,然后云端处理,匹配相应的数据,发送到客户端。 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是, Google推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。我们只需要点击搜索框旁边的那个小话筒形状的按钮

AAAI 2020论文分享:通过识别和翻译交互打造更优的语音翻译模型

末鹿安然 提交于 2020-03-03 17:35:36
2月初,AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。 一、研究背景 语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景,具有重要的研究价值和广阔的应用前景。 近年来,随着人工智能技术在语音、翻译等相关领域的蓬勃发展,语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成,方法简单,但面临着噪声容错、断句标点、时间延迟等一系列技术难题。 端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系,一步实现跨模态跨语言的翻译,一旦技术成熟,理论上可以让语音翻译更准更快,极大地提升模型的性能。论文作者发现语音识别和语音翻译两个任务是相辅相成的。 图1 如图1所示,语音识别和语音翻译交互示例相比于直接将原始语音作为输入,如果能够动态获取到识别出的文本信息,语音翻译将变得更加容易;而翻译出的结果也有助于同音词识别的消歧

AAAI 2020论文分享:通过识别和翻译交互打造更优的语音翻译模型

三世轮回 提交于 2020-03-02 11:03:11
2月初,AAAI 2020在美国纽约拉开了帷幕。本届大会百度共有28篇论文被收录。本文将对其中的机器翻译领域入选论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。 https://mmbiz.qpic.cn/mmbiz_png/uYIC4meJTZ2icYYOpJicZ7qn53NJFPhvruP97grEpmCwA5Sms2kHtrFBcDK0lRcsAuchFicRtP9iaGkOBPqHkb6upw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1 一、研究背景 语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景,具有重要的研究价值和广阔的应用前景。 近年来,随着人工智能技术在语音、翻译等相关领域的蓬勃发展,语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成,方法简单,但面临着噪声容错、断句标点、时间延迟等一系列技术难题。 端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系

远距离混合语音识别方法的研究

我的未来我决定 提交于 2020-03-01 17:40:20
深度神经网络的基本原理 在 DNN 声学模型应用于语音识别中,较之前的浅层神经网络参数初始化的方法略有不同。早期的神经网络参数的初始化主要是随机进行初始化的,而 DNN 参数的初始化值主要是利用大量的语音数据输入生成一个具有多个隐含层的生成性模型。DNN 的基本框架图 2.3 所示。 图 2.3 表示语音数据经过 DNN 的输入层,得到的特征参数再利用深度信念网络 [39-41]进行逼近,这种训练过程称为预训练过程。在网络结构的最后一个隐含层加入 softmax 函数,从而得到输出层值,然后用初始化后的网络权重利用反向传播算法(Back Propagation,BP)对网络的权重精确的微调(fine-tuning),以便得到准确的网络权重。DBN 是通过多个受限玻尔兹曼机制的神经单元构建而成的。 基于优化阵列参数的远距离语音识别方法 远距离语音识别的方法一般是为了提高语音信号质量,也就是针对信号增强和提高信噪比这两方面。这些方法大多数情况下关注的是能够通过麦克风阵列的输出端得到一个最佳的语音信号波形,因此这些方法依据的是不同的信号准则对远距离语音进行处理,例如最大化信噪比原则和来波方向最小化失真准则。然而,在这些准则下,并没有改善对语音识别来说至关重要的特征参数,进而阵列处理后的语音信号并没有明显改善。 由于语音识别不仅是信号处理领域,同样属于模式识别领域

基于深度神经网络的语音识别方法

折月煮酒 提交于 2020-02-29 09:48:17
Kaldi 语音工具箱的简介 Kaldi 语音工具箱[61]是由微软研究院Povey 等人研究的应用于语音识别方面的开源工具箱。该工具箱是用 C++编写而成的,而且具有灵活性、扩展性。 该工具箱的函数库是 HTK 工具箱函数库的增强版,为了使用的方便,将 HTK 零碎的的指令与功能函数模块进行统一的整合,最大的优点就是引入了深度神经网络模块。 Kaldi 工具箱的语音识别系统框架如图 图 中,Kaldi 系统的外部库依赖于 Open FST 和数值代数库。这两个函数库可通过 Decodable 进行链接。 利用 C++编写指令行直接调用工具箱中的库函数,然后利用多个的 perl 语言脚本搭建成了语音识别系统。各个特定的指令行能完成相应的任务,而且只要设定少量的参数。除此之外,所有的工具模块都可以从管道接口处自由的读写,从而使得各个工具模块之间的调用更加方便。 基于 Kaldi 具体实现 DNN 训练过程 尽管深度神经网络比浅层网络有较强的建模能力,但是训练深度网络是非常困难的。因为很难判断给定的输入数据矢量后,隐含变量服从的后验概率分布。简单的 BP算法由于出现局部最小值而不能处理。最近提出使用 RBM 进行预训练和使用对比散度算法进行区分性的微调。 DBN 可以看作复杂的非线性特征提取器。每一层的隐藏单元代表特性。特征提取器能够获得与在原始的输入数据更高阶相关性的数据。利用

十九、语音识别

巧了我就是萌 提交于 2020-02-28 13:29:45
文本转换为语音 使用pyttsx、SAPI两种方式可以将文本转化成语音。但是都是通过参数输入文本内容。使用SpeechLib可以从文本文件中获取输入,再将其转化为语言。 使用 pyttsx 实现文本转换语音    import pyttsx3 as pyttsx engine=pyttsx.init() engine.say('你好 pyttsx') engine.runAndWait() 使用 SAPI 实现文本转换语音 from win32com.client import Dispatch msg="你好 SAPI" speaker = Dispatch('SAPI.SpVoice') speaker.Speak(msg) del speaker 使用 SpeechLib 实现文本转换语音 #导入转化需要的对象和转化模块(个人理解)from comtypes.client import CreateObjectfrom comtypes.gen import SpeechLib#创建转化对象和转化流engine=CreateObject('SAPI.SpVoice')stream=CreateObject('SAPI.SpFileStream')infile='demo.txt'outfile='demo_audio.wav'stream.Open(outfile

微信小程序如何集成语音识别(语音转文字)

最后都变了- 提交于 2020-02-26 22:54:33
最近做了一个垃圾分类的小程序,可以通过拍照识别、语音录入垃圾名称,来判断垃圾所属分类的类别。 效果: 实现逻辑: 1. 通过小程序录音功能,录制音频文件 2. 利用百度的语音识别功能,将音频转为文字 准备阶段: 你需要注册一个百度云账号,并创建一个应用。参考: https://ai.baidu.com/ai-doc/REFERENCE/Ck3dwjgn3 创建好应用后可以获得API Key、Secret Key, 用于小程序开发中。 实现过程: 1. 获取AccessToken 这是百度的鉴权认证过程,之后可以获得AccessToken。参考文档: https://ai.baidu.com/ai-doc/SPEECH/bk38lxitu //app.js App({ onLaunch: function () { if (!wx.cloud) { console.error('请使用 2.2.3 或以上的基础库以使用云能力') } else { wx.cloud.init({ // env 参数说明: // env 参数决定接下来小程序发起的云开发调用(wx.cloud.xxx)会默认请求到哪个云环境的资源 // 此处请填入环境 ID, 环境 ID 可打开云控制台查看 // 如不填则使用默认环境(第一个创建的环境) // env: 'my-env-id', traceUser:

语音识别系统结构

妖精的绣舞 提交于 2020-02-23 00:16:07
转载: 语音识别系统结构——鸟瞰 语音识别概述 语音识别是指将语音信号转换为文字的过程。现在通行的语音识别系统框架如图: 信号处理模块将根据人耳的听觉感知特点,抽取语音中最重要的特征,将语音信号转换为特征矢量序列。现行语音识别系统中常用的声学特征有线性预测编码(Linear Predictive Coding,LPC),梅尔频率倒谱系数(Mel-frequency Cepstrum Coefficients,MFCC),梅尔标度滤波器组(Mel-scale Filter Bank,FBank)等。 解码器(Decoder)根据声学模型和语言模型,将输入的语音特征矢量序列转化为字符序列。 声学模型是对声学、语音学、环境的变量,以及说话人性别、口音的差异等的知识表示。语言模型则是对一组字序列构成的知识表示。 模型的训练 现代的语音识别系统中声学模型和语言模型主要利用大量语料进行统计分析,进而建模得到。 声学模型 语音识别中的声学模型充分利用了声学、语音学、环境特性以及说话人性别口音等信息,对语音进行建模。目前的语音识别系统往往采用隐含马尔科夫模型(Hidden Markov Model,HMM)建模,表示某一语音特征矢量序列对某一状态序列的后验概率。隐含马尔科夫模型是一种概率图模型,可以用来表示序列之间的相关关系,常常被用来对时序数据建模。 隐含马尔科夫模型是一种带权有向图

Atitit 语音识别的技术原理

醉酒当歌 提交于 2020-02-15 22:57:23
Atitit 语音识别的技术原理 1.1. 语音识别技术,也被称为 自动语音识别 Automatic Speech Recognition , (ASR) , 2 1.2. 模型 目前,主流的大词汇量语音识别系统多采用统计 模式识别技术 2 1.3. 基本方法 般来说 , 语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。 2 1.3.1. 模板匹配的方法 2 1.4. 一般来说 , 语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。 2 1.5. 提及 语音识别 ,就不能不说 Nuance, Nuance的语音技术是以统计推断方法为基础,着眼于音素(音节的声音)和语境来识别话语 2 1.6. , 神经网络 。 这种技术可使得精确度提升 25%以上,这是一个巨大的飞跃,因为这个行业只需要提升5%就具备革命意义 3 1.7. 语音信号预处理与特征提取 3 1.7.1. 基于语音学和声学的方法 3 1.8. PCM 文件,也就是俗称的 wav 文件。 4 1.9. VAD 静音切除 4 1.10. 要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。 4 1.11. 一个完整的基于统计的语音识别系统可大致分为三部分: 5 1.12. MFCC 特征 特征主要用

语音识别开放平台调研以及主要技术

我与影子孤独终老i 提交于 2020-02-15 22:28:50
   语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。    目前的语音开放平台有: 百度DuerOS开放平台, 阿里AliGenie语音开放平台, 腾讯云小微语音开放平台,科大讯飞,思必驰的DUI,云知声等等, 目前我们公司采用的是科大讯飞和阿里的语音开发平台。   AIUI 是科大讯飞2015年推出的一套以语音为核心的人机交互解决方案,意在使人机交互中的计算机能够快速具备能听会说,能理解会思考的能力。搭载了 AIUI 的智能硬件可以轻松实现查询天气、播放音视频资源、设置闹钟以及控制智能家居等能力。AIUI 的语义理解不仅提供了基本的问答,还提供了一套开发任务型对话的解决方案,开发者可以通过在平台编写自定义技能,实现自身业务的语义理解。实现诸如商场导购、自助点菜、智能客服等功能。   相信大家在生活中也使用过这里所说的 AIUI,就是你手机上的语音助手,你可以跟他聊天,可以用语音对话的方式,去查询今天的天气,去导航,去听新闻等等