语音识别技术

【Recorder.js+百度语音识别】全栈方案技术细节

北战南征 提交于 2020-02-26 02:25:50
项目中需要利用百度语音接口在Web端实现语音识别功能,采用了这样的技术方案,但实现时遇到了很多问题,发现网上大部分文章都只是在详解官方提供的example示例,对实际开发没有提供什么有价值的建议,而 recorder.js 是无法直接适配百度AI的语音接口的,故本篇将开发中各个细节点记录与此,欢迎指点交流。 一. 技术栈选择 需求 :利用百度语音接口在Web端实现语音识别功能 技术栈 : React + recorder-tool.js + recorder.js + Express + Baidu语音识别API recorder.js 项目地址: https://github.com/mattdiamond/Recorderjs 演示效果 : 二. 前端开发细节 为recorder.js提供一个代理对象 前端的主框架采用 React ,在基本结构和语法上并没有太多问题,为了使用 recorder.js ,我们封装了一个 recorder-tool.js 作为代理,其实现方法较为简单,就是将官方示例中 example 示例中的 html 文件的脚本部分封装成一个单例对象作为 recorder.js 的代理,然后暴露一组 API 供上层调用,大致的结构如下: import Recorder from './recorder-src'; //Singleton var recorder

收藏!2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台

佐手、 提交于 2020-02-24 07:14:25
工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则。选择与开发内容相匹配的工具,常常会使我们事半功倍。但面对人工智能的多个领域,如:机器学习、深度学习、NLP等等,多样的工具有时也让我们也无从选择。 就在最近,一个基于 javascript 的可视化库 D3js(treemap 可视化)对 json 文件生成的技术图,给开发者提供了详细的各领域工具清单,内容涵盖了 11 种极具潜力的 AI 工具类型,我们将其整理如下,强烈建议大家收藏~ 原文链接:https://github.com/haggaishachar/techmap 目录: Ⅰ、经典机器学习(1-3) Ⅱ、深度学习(4-8) Ⅲ、强化学习(9-12) Ⅳ、自然语言处理(13-18) Ⅴ、语音识别(19-21) Ⅵ、计算机视觉(22-26) Ⅶ、分布式训练(27-31) Ⅷ、自动建模(32-35) Ⅸ、IDEs系统(36-38) Ⅹ、平台(39-41) Ⅺ、评分推理系统(42-43) I . 适用于经典机器学习的工具 一、SciKit-learn  star 39.2k  fork 19.2k scikit-learn 是一种强大的基于 Python 语言的机器学习算法库(https://scikit-learn.org/stable/)。其中,包含了算法预处理,模型参数择优,回归与分类等算法

利用微软认知服务实现语音识别功能

人走茶凉 提交于 2020-02-15 22:35:09
  想实现语音识别已经很久了,也尝试了许多次,终究还是失败了,原因很多,识别效果不理想,个人在技术上没有成功实现,种种原因,以至于花费了好多时间在上面。语音识别,我尝试过的有科大讯飞、百度语音,微软系。最终还是喜欢微软系的简洁高效。(勿喷,纯个人感觉)   最开始自己的想法是我说一句话(暂且在控制台上做Demo),控制台程序能识别我说的是什么,然后显示出来,并且根据我说的信息,执行相应的行为.(想法很美好,现实很糟心)初入语音识别,各种错误各种来,徘徊不定的选择哪家公司的api,百度上查找各种语音识别的demo,学习参考,可是真正在.NET平台上运行成功的却是寥寥无几,或许是我查找方向有问题,经历了许多的坑,没一次成功过,心灰且意冷,打了几次退堂鼓,却终究忍受不住想玩语音识别。   可以看看我VS中的语音demo      第一个是今天的主角-稍后再提。   第二个和第三个是微软系的系统自带的System.Speech.dll和看了微软博客里面的一篇文章而去尝试的Microsoft.Speech.dll 可惜文章写的挺好的,我尝试却是失败   的,并且发现一个问题,就是英文版的微软语音识别是无效的(Microsoft.Speech.Recognition),而中文版的语音合成是无效的(Microsoft.Speech.Synthesis).,因    此

离线语音Snowboy热词唤醒+ 树莓派语音交互实现开关灯

匿名 (未验证) 提交于 2019-12-02 23:45:01
语音识别现在有非常广泛的应用场景,如手机的语音助手,智能音响(小爱,叮咚,天猫精灵...)等. 语音识别一般包含三个阶段:热词唤醒,语音录入,识别和逻辑控制阶段. 热词唤醒就是唤醒设备,让设备解析你接下来说的话.通常设备一直在录入周围的声音,但是设备此时不会有任何反应.当通过像「Hi,Siri」这样的唤醒词被唤醒以后,设备就开始处理接下来的声音了。热词唤醒是语音识别的开始。 Snowboy 是比较流行的热词唤醒框架,目前已经被百度收购。Snowboy 对中文支持友好,相对 Pocketsphinx 配置使用较为简单,推荐使用。 snowboy官方文档地址[英文的] http://docs.kitt.ai/snowboy 树莓派原生的音频设备是不支持语音输入的(无法录音),需要在网上购买一支免驱动的 USB音频驱动 ,一般插上即可直接使用。 建议安装下 pulseaudio 软件,减少音频配置的步骤: $ sudo apt-get install pulseaudio 安装 sox 软件测试录音与播放功能: $ sudo apt-get install sox 安装完成后运行 sox -d -d 命令,对着麦克风说话,确认可以听到自己的声音。 安装其他软件依赖 : 安装 PyAudio: $ sudo apt-get install python3-pyaudio 安装 SWIG(

利用Python实现语音识别功能,只需3个步骤!

不羁岁月 提交于 2019-11-30 05:54:24
调用科大讯飞语音听写,使用Python实现语音识别,将实时语音转换为文字。 首先在官网下载了关于语音听写的 SDK ,然后在文件夹内新建了两个 .py 文件,分别是 get_audio.py 和 iat_demo.py ,并且新建了一个存放录音的文件夹 audios ,文件夹内存放录音文件 input.wav ,我的整个文件目录如下: asr_SDK(文件名) ├─ Readme.html ├─ audios │ └─ input.wav(存放音频) ├─ bin │ ├─ gm_continuous_digit.abnf │ ├─ ise_cn │ ├─ ise_en │ ├─ msc │ ├─ msc.dll (因为我是32位的python,所以用的这个动态链接库) │ ├─ msc_x64.dll │ ├─ source.txt │ ├─ userwords.txt │ └─ wav ├─ doc ├─ get_audio.py ├─ iat_demo.py ├─ include ├─ libs ├─ release.txt └─ samples 一、录音 这里使用的是 pyaudio 进行录音,需要下载相关的轮子,具体可参考我的另一篇 博客 。然后根据自己的需要进行了修改, gt_audio.py 全部代码如下: 在学习过程中有什么不懂得可以加我的