语音识别

语音识别之初体验

十年热恋 提交于 2019-12-23 02:56:22
一、概述 作为最自然的人机交互方式 -- 语音 ,正在改变人们的生活,丰富多媒体技术的应用。语音识别技术是语音信号处理的一个重要分支,也是近年来非常火的一个研究领域。 随着科技的飞速发展,语音识别不仅在桌面PC和大型工作站得到了广泛应用,并且在嵌入式系统领域也占有一席之地。如智能家居、苹果的Siri、车载语音识别系统等。相信在不久的将来,语音识别技术必然会渗透在人们生活的每一个角落。 二、语音识别系统的分类 语音识别依照说话人的说话方式能够分为 孤立词( IsolatedWord )识别、连接词( Connected Word )识别和连续语音( Continuous Speech )识别 。孤立词识别是指说话人每次仅仅说一个词或短语。每一个词或短语在词汇表中都算作一个词条,一般用在语音电话拨号系统中;连接词语音识别支持一个小的语法网络,其内部形成一个状态机。能够实现简单的家用电器的控制,而复杂的连接词语音识别系统能够用于电话语音查询、航空订票等系统;连续语音识别是指对说话人以日常自然的方式发音,通常特指用于语音录入的听写机。 从识别对象的类型来看。语音识别能够分为 特定人( SpeakerDependent )语音识别和非特定人( Speaker Independent )语音识别 。 特定人是指仅仅针对一个用户的语音识别,非特定人则可用于不同的用户。 从识别的词汇量大小能够分为

语音机器人开发

耗尽温柔 提交于 2019-12-22 12:38:12
服务机器人缺少了语音交互的话,就会让人觉得不像个机器人。在当前非常多的服务机器人上,语音交互成为一个非常大的亮点。 当然如果我们从头做起,这样就太麻烦,还好当前有很多公司提供了解决方案。科大讯飞、百度语音等都提供了非常好的语音识别和语音合成工具。 1.1 简介 这里我采用图灵机器人作为语义理解的工具,搭建一个语音机器人。 具体可以参考图灵机器人官网http://www.tuling123.com/help/h_cent_andriodsdk.jhtml?nav=doc 大致框架如下: 1.2 概念解释 (1)语音识别:Automatic Speech Recognition(ASR),也称自动语音识别,其目标是将人类的语音中的词汇内容转换相应的文本。 (2)自然语言理解:Natural Language Understanding(NLU),俗称人机对话,是人工智能的分支学科。本学科通过电子计算机模拟人的语言交际过程,从而使计算机能理解和运用人类社会的自然语言,实现人机之间的自然语言通信,进而代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。 (3)TRClient:TRClient 是一个封装了语音采集、处理、网络收发、语义理解等功能的语音识别和语义解析整体解决方案。 (4)应用程序:在开发中使用了 TRClient

微软认知语音服务 语音识别

余生颓废 提交于 2019-12-20 10:08:48
官网 https://azure.microsoft.com/zh-cn/services/cognitive-services/speech-services/ 先使用七天免费的认知服务 然后会获得两个密钥,在开发时会用到密钥,这两个密钥用哪个都可以 然后进入正式开发 首先引入包 install-package Microsoft.CognitiveServices.Speech 引入之后,打开配置管理器 活动解决方案平台 新建 64位系统的选x64,32位系统的选x86,然后确定 确定下项目的平台都是x64(x86),因为微软的语音识别无法在any cpu上运行,不更改平台运行就会报错 接下来就可以开始写代码了 首先创建识别器对象 //创建配置对象 参数1是服务订阅的密匙,参数2是订阅关联的区域(免费试用版区域都是westus) var config = SpeechConfig.FromSubscription("密匙", "区域"); //识别的语言设为中文 config.SpeechRecognitionLanguage = "zh-CN"; // 创建识别器对象. using (var recognizer = new SpeechRecognizer(config)) { } 单次识别,只识别一段话并返回结果 //开始录入,并返回结果 var result =

高级接口--语音识别

拈花ヽ惹草 提交于 2019-12-17 08:56:51
开通语音识别功能以后,用户每次发送语音给微信公众账号时,微信会在推送的语音XML数据包中增加一个Recongnition字段。该字段为语音识别除的文本内容。 <xml> <ToUserName>< ![CDATA[toUser] ]></ToUserName> <FromUserName>< ![CDATA[fromUser] ]></FromUserName> <CreateTime>1357290913</CreateTime> <MsgType>< ![CDATA[voice] ]></MsgType> <MediaId>< ![CDATA[media_id] ]></MediaId> <Format>< ![CDATA[Format] ]></Format> <Recognition>< ![CDATA[腾讯微信团队] ]></Recognition> <MsgId>1234567890123456</MsgId> </xml> elif isinstance(recMsg,ReceiveVoiceMsg): print(postStr) if recMsg.Recognition is not '': content = '你说的是:' + recMsg.Recognition replyMsg = ReplyTextMsg(recMsg.FromUserName,

百度语音识别 python

拟墨画扇 提交于 2019-12-15 08:19:50
python实现语音识别 我们用到是百度语音识别,因为不掏钱哈哈!首先去百度官网去创建你的 APPID AK SK 这个网上很多大家没创建的自己看下 目前本SDK的功能同REST API,需要联网调用http接口, 具体功能见REST API 文档, REST API 仅支持整段语音识别的模式,即需要上传完整语音文件进行识别,时长不超过60s,支持、自定义词库设置, 没有其他额外功能。 原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式) 首先安装使用Python SDK有如下方式 如果已安装pip,执行pip install baidu-aip即可。 如果已安装setuptools,执行python setup.py install即可 AipSpeech是语音识别的Python SDK客户端,为使用语音识别的开发人员提供了一系列的交互方法。 参考如下代码新建一个AipSpeech: from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = '你的 App ID' API_KEY = '你的 Api Key' SECRET_KEY = '你的 Secret Key' client = AipSpeech(APP_ID,

Kaldi语音识别快速入门

為{幸葍}努か 提交于 2019-12-12 02:57:20
一.简介   Kaldi是使用C++编写的语音识别工具包,Apache License v2.0许可。主要供语音识别研究人员使用。Kaldi的目标和范围与HTK类似。目标是拥有易于修改和扩展的现代而灵活的代码。主要功能包括:   1.与有限状态传感器FST的代码进行集成,根据OpenFst工具箱【作为库】进行编译。   2.广泛的线性代数支持,包括一个包装标准BLAS和LAPACK例程的矩阵库。   3.可扩展的设计,以方便使用为目的提供算法。 二.安装Kaidi   1.下载     在Linux你要安装的目录下执行:git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream   2.更新     当需要更新时,可以执行:git pull   3.安装环境     理想的计算环境是运行在SGE【Sun GridEngine】的Linux机器的集群上,可以通过NFS或某些类似的网络文件系统访问共享目录。在理想情况下,网格上的某些计算机将具有NVidia GPU,这样可以将它们用于神经网络的训练,并且可以通过向qsub添加一些额外的选型将它们保留在队列中。在实际情况或用于学习时,可能单机是比较普遍的,在单机情况下,Kaldi是可以运行的,尽管这样做会执行的慢一点

基于表情分析的智能语音陪伴机器人

馋奶兔 提交于 2019-12-10 01:32:39
基于表情分析的智能语音陪伴机器人 第一部分 设计概述 1.1系统设计简述 1.2系统应用领域 1.3参考资料 第二部分 系统实现方案 2.1软件设计的总体方案 2.1.1软件系统框图 2.1.2软件系统概述 2.1.3优越性及创新点 2.2 各模块概述 2.2.1 RGB LED灯 2.2.2 Raspberry Pi 摄像头 2.2.3蓝牙通信模块 2.2.4语音识别模块 2.2.5人体红外检测模块 第三部分 系统硬件设计 3.1 SD卡读写 3.1.1 SD卡简介 3.1.2 SD卡通信协议 3.1.3 SPI读取SD卡数据 3.2 树莓派摄像头 3.3显示系统程序 3.3.1显示系统流程图 3.3.2显示系统概述 3.4语音处理程序 3.4.1语音处理流程图 3.4.2语音处理概述 3.4.3语音库配置教程 3.5树莓派工作介绍 3.5.1 系统结构 3.5.2 树莓派工作流程 第四部分 系统软件架构设计 4.1软件系统结构 4.2代码结构分析 4.3部分源码分析 4.3.1 主函数分析 4.3.2 SM16126驱动程序分析 4.3.3 表情识别程序分析 4.3.3.1 相关Python库介绍 4.3.3.2 识别规则 4.3.3.3 程序实现流程图 4.3.3.4 程序实现过程 4.3.4 树莓派开机自启程序 第五部分 系统调试 1.动态表情识别 2.智能语音实现情况 3

语音识别——使用python建立HMM-GMM孤立词识别模型

痞子三分冷 提交于 2019-12-06 14:34:48
基于HMM-GMM的孤立词识别 简介 基础准备 python建模 数据预处理 特征提取 搭建孤立词模型 模型的训练和测试 hmmlearn安装报错 一些想法 简介 本文实现了一个基于HMM-GMM的独立词识别模型,数据集有限,训练数据为独立词,为10类。训练样本100个,测试样本10个,测试集上能够达到90%的识别率。 直接 下载项目 到本地,运行 .py 文件就可以得到下面的结果,成功执行: 训练集: 识别得到结果: [ '1' , '10' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '10' , '1' , '10' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '9' , '1' , '10' , '2' , '3' , '4' , '5' , '6' , '5' , '8' , '9' , '1' , '10' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '9' , '1' , '10' , '2' , '3' , '4' , '5' , '6' , '7' , '8' , '10' , '1' , '10' , '2' , '4' , '4' , '5' , '6' , '7' , '8' , '9' , '1' , '10' , '2' ,

业务领域建模Domain Modeling

自闭症网瘾萝莉.ら 提交于 2019-12-05 15:19:13
我的工程实践题目是面向银行领域的自然语言理解系统设计,下面通过类图描述该项目的业务领域。 Collect application domain information (1) 系统提供的服务有四大类包括:贷款、信用卡、理财和金融。 (2) 每个业务有不同的语料库,每个语料库中有不同类型的问题的多种问询语句以及它们的解答语句。 (3) 根据不同的语料库训练不同的模型。 (4) 用户在使用时,系统首先语音询问用户要选择哪类服务,得到用户答复后调用对应的模型,准备工作。 (5) 用户语音输入后,系统调用语音识别API,生成文本数据喂给模型进行分类以找到对应的问题。 (6) 从数据库中匹配对应问题的答复语句,最后通过语音回复用户。 Brainstorming 名词:用户、贷款、信用卡、理财、金融、业务、语料库、问询语句、解答语句、模型、语音识别API、文本数据。 动词:语音输入、语音输出、语音识别、选择模型、生成文本数据、分类、寻找、匹配。 “...是...”表达式:贷款、信用卡、理财、金融是业务。 “...分成...”、“...组成...”表达式:语料库由问询语句和解答语句组成。 Classifying the domain concepts into 类 属性 用户 业务、模型、问询语句 语音 语音识别API、文本数据 处理 文本数据、模型 语料 语料库 交互 询问语句、解答语句

市场车载音响麦克风摆放以及降噪解决方案

怎甘沉沦 提交于 2019-12-03 05:19:41
扬声器摆放解决方案 恩智浦公司 参考网站: https://www.nxp.com.cn   恩智浦半导体公司宣布推出了一款回声消除及降噪解决方案,该解决方案显著 减少了语音通信嘈杂 的问题,并使汽车制造商能够提供令消费者满意的免提通话体验。这款经济高效的解决方案结合了创新ECNR软件,该软件可以很方便地移植到恩智浦车载收音及音频处理DSP或i.MX系列应用处理器。新型恩智浦ECNR解决方案通过在驾驶舱中消除回声和过滤不必要的噪声来提高通话音质。   回声和噪声使行驶途中的通话变得困难。车内扬声器在传输来电通话的语音信号时会产生回声,回声返回到话筒会导致来电者听到自己的声音,使得注意力分散并可能导致通信中断。此外,来自风扇、排气管、轮胎、窗户和乘客的道路噪声可能渗入通话,导致通话无法识别,最终损害驾驶通话体验并带来烦恼。   新型恩智浦ECNR解决方案通过在驾驶舱中消除回声和过滤不必要的噪声解决这两方面问题,从而提高通话音质。 恩智浦音响系统   音响可以影响旅程的舒适感。交通噪声,音乐的大小或甚至空调的声音往好了说可以带来刺激,往坏了说,可以带来极大的破坏性。高级音响系统可将不受欢迎的外界声音抵消掉,根据你的要求调整音乐;使车内环境可以随心所欲或充满活力或平和舒缓。   借助广泛的接收和处理音频、广播和噪声的器件组合,恩智浦还为汽车音响系统提供最先进的AB类和D类放大器