语音识别

对k210的初探——MixNo——图形化编程

半世苍凉 提交于 2020-04-07 14:03:16
MixNo 市面上关于k210的开发板已经很多了,这次我很荣幸能够测评MixNo MixNo就像arduino一样具有具有低门槛入门,可玩性多样,可加拓展盾板可,加SD卡(加载人工智能模型)等优点。其中特别要说的是:其具有图形化编程的能力,且可以转换成micro python程序语句,且能够实现人脸识别、二维码识别、连接智能云平台,语音识别、操作和读取传感器、控制电机和舵机等功能。 我在入手1h后,就完成了扫码播放音乐的功能。 这是我的代码: 这是效果视频: https://v.youku.com/v_show/id_XNDYyMTIxNDU4NA==.html 说一下使用后的感受,相比于我们常用的单片机而言,这款开发板的可玩性很高,能够满足AIOT各方面应用,把以前我们需要多个单片机配合使用的才能完成的困境打破了,使用这一款单片机就可以搞定人工智能+硬件。 顺便提一句:童芯创悟的MixNo技术顾问是真的友好。不论是关于MixNo的问题,还是元器件的问题,亦或是电路的问题,80后油腻大叔都会认真解答,不论多晚。我感觉买开发板最主要的就是看重售后。为他们的职业精神点赞!!! 有问题的可以加入QQ群:1056344043 来源: oschina 链接: https://my.oschina.net/u/4353238/blog/3223082

使用 Python 和百度语音识别生成视频字幕

喜欢而已 提交于 2020-04-07 07:34:23
文章目录 从视频中提取音频 根据静音对音频分段 使用百度语音识别 获取 Access Token 使用 Raw 数据进行合成 生成字幕 总结 从视频中提取音频 安装 moviepy pip install moviepy 相关代码: audio_file = work_path + '\\out.wav' video = VideoFileClip(video_file) video.audio.write_audiofile(audio_file,ffmpeg_params=['-ar','16000','-ac','1']) 根据静音对音频分段 使用音频库 pydub,安装: pip install pydub 第一种方法: # 这里silence_thresh是认定小于-70dBFS以下的为silence,发现小于 sound.dBFS * 1.3 部分超过 700毫秒,就进行拆分。这样子分割成一段一段的。 sounds = split_on_silence(sound, min_silence_len = 500, silence_thresh= sound.dBFS * 1.3) sec = 0 for i in range(len(sounds)): s = len(sounds[i]) sec += s print('split duration is ', sec)

Ubuntu14.04环境下安装编译HTK语音识别工具库

情到浓时终转凉″ 提交于 2020-04-07 05:28:41
1 下载HTK HTK官网是:http://htk.eng.cam.ac.uk/,进入即可下载。 2 编译HTK 首先确保你已经安装了g++和libx11, sudo apt-getinstall libx11-dev:i386 解压HTK工具包,进入ht文件夹下面 sudo tar xzf HTK-3.4.1.tar.gz cd htk 然后输入下面一段代码: sudo ./configure --prefix=/usr/local/ (这样安装好的文件即可存放在/usr/local目录下面) 出现下面一段提示: setting config.status: creating HTKLVRec/Makefile config.status: WARNING: HTKLVRec/Makefile.inseems to ignore the --datarootdir setting config.status: creating Makefile config.status: WARNING: Makefile.inseems to ignore the --datarootdir setting ************************************************** HTK is now ready to be built. Type"make

[转载]Android10.0AudioFocus之如何使用(一)

≡放荡痞女 提交于 2020-04-06 17:14:42
前言 对于音频焦点,很多人会感到很陌生,也很迷惑,不清楚音频焦点到底处理什么的,怎么用。有人说要播放音乐,必须先申请焦点,只有拿到焦点后才能播放音乐,可也有人说我不申请音频焦点也能播放音乐,因此,今天我们就来说说到底什么是音频焦点。 正文 AudioFocus机制实在Android2.2引入的,当初是为了协调各应用之间竞争Audio资源的问题,举个简单例子QQ音乐要播放音乐,优酷要播放视频。对于手机上的这两个应用,如果视频和音乐同时播放,效果可想而知,那么他们之间怎么实现互斥播放的呢,当然实现的方式很多,广播 binder的进程间通信等,但你觉得QQ音乐会告诉优酷你接下我的广播,或者优酷告诉QQ音乐你bind下我,如果在加入一个网易云音乐,爱奇艺视频,显然是不可以的,谷歌爸爸显然又不可能让大家胡闹下去,因为好的用户体验还是很重要的嘛,因此这个时候AudioFocus就出现了。 谷歌爸爸说我来制定一套游戏规则,大家遵守规则就可以愉快的一起玩耍了,但既然只是规则,那么就有遵守游戏规则的好孩子以及不遵守游戏规则的好孩子。 遵不遵守游戏规则都是可以一起玩耍的,这就回到了我们开始说的问题。有人说要播放音乐,必须先申请焦点,只有拿到焦点后才能播放音乐(遵守游戏规则的好孩子),可也有人说我不申请音频焦点也能播放音乐(不遵守游戏规则的好孩子) 说到这我想这回对音频焦点都有了一个初步的认时

隐马尔可夫模型学习笔记(之一,概率计算问题)

自古美人都是妖i 提交于 2020-04-06 17:12:51
###隐马尔可夫模型的定义 隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。 隐马尔可夫链随机生成的状态的序列,称为状态序列(state sequence);每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列(observation sequence)。序列的每一个位置又可以看作是一个时刻。 设Q是所有可能的状态的集合,V是所有可能的观测的集合。 Q = { q 1 , q 2 , . . . q N } , V = { v 1 , v 2 , . . . v M } Q = \{q_1,q_2,...q_N\}, V = \{v_1,v_2,...v_M\} Q = { q 1 ​ , q 2 ​ , . . . q N ​ } , V = { v 1 ​ , v 2 ​ , . . . v M ​ } 其中, N N N 是可能的状态数, M M M 是可能的观测数。状态 q q q 是不可见的,观测 v v v 是可见的。应用到词性标注系统,词就是 v v v ,词性就是 q q q 。应用到语音识别系统,语音就是 v v v ,语素就是 q q q 。 I I I 是长度为 T T T 的状态序列, O O O 是对应的观测序列。 I = { i 1 , i 2 ,

肖昆/XTDrone

自古美人都是妖i 提交于 2020-03-23 18:38:23
3 月,跳不动了?>>> XTDrone [EN] 介绍 这是基于PX4和ROS的无人机仿真平台,在这个平台上,开发者可以快速验证算法。如: 目标检测与追踪 视觉SLAM 激光SLAM VIO 运动规划 多机协同 软件架构 通信: PX4与ROS之间的通信封装进Python类, 多机通信启动多进程 控制:键盘切换无人机飞行模式,控制解锁上锁,调节速度和偏航转速 感知 目标检测与追踪 YOLO SLAM: VSLAM: ORBSLAM2 Laser_SLAM: PLICP+gmapping VIO VINS-Mono(起飞前初始化问题有待完善) 位姿真值获取 语音识别(待开发) 运动规划(目前只有二维) 全局规划 A* Dijkstra 局部规划 DWA 协同:多机编队构型变换 仿真配置 无人机PX4参数 可拒止GPS和磁罗盘 启动脚本 Gazebo模型 支持双目相机、深度相机、单线雷达和多线雷达 Gazebo世界 两个户外场景 三个室内场景 安装教程 见 XTDrone使用文档 参与贡献 Fork 本仓库 新建 Feat_xxx 分支 提交代码 新建 Pull Request 来源: oschina 链接: https://my.oschina.net/u/4257871/blog/3209260

DevExpress应用案例--语音识别器Dual Writer

ぃ、小莉子 提交于 2020-03-23 17:26:39
Dual Writer是 一个以语音识别为特色的文档处理器,无需安装其他软件,只需要插入你的麦克风就可以开始录入口述文字。它不仅支持MS Word的DOCX格式,还支持 RTF、ODT、TXT等常见文档格式。另外,Dual Writer的语音识别和语音合成部分由.NET System.Speech Namespace驱动。>>免费下载试用 为何选择DXperience Winforms Dual Writer定位是一款针对Windows的桌面软件。DevExpress WinForm下面有一个RichEdit控件,能创建仿真Office界面的应用程序,恰好符合Dual Writer的需求 。加上我之前对DevExpress的产品已经比较熟悉,知道它在性能方面是非常稳定的,所以毫不犹豫的选择了DXperience Winforms这款界面控件。>>立即下载 Rich Edit Control Dual Writer的原理就是将用户的语音解析为一个命令,然后去调用相应的API,从而识别出文字。之所以选择RichEdit控件,是因为它拥有能满足语音 识别项目需求的多命令行。这些命令行可以以编程的形式进行访问,从而实现插入和选择文本、搜索文本、移动 光标、复制和粘贴、应用样式、滚动屏幕等多项功能。总之,所有通过键盘能完成的事情都可以以编程的形式完成,而这大大简化了Dual

机器学习原来如此有趣:如何用深度学习进行语音识别

旧巷老猫 提交于 2020-03-15 06:43:03
吴恩达教授曾经预言过,当语音识别的准确度从95%提升到99%的时候,它将成为与电脑交互的首要方式。 下面就让我们来学习与深度学习进行语音室识别吧! 机器学习并不总是一个黑盒 如果你想知道神经机器翻译是如何工作的,你应该猜到了我们可以简单地将一些声音送入神经网络,然后训练它使之生成文本: 这是使用深度学习进行语音识别的最高追求,但是很遗憾我们现在还没有完全做到这一点(至少在笔者写下这一篇文章的时候还没有–我敢打赌,再过几年我们可以做到) 一个大问题是语速不同。一个人可能会很快的说出”Hello!”,而另一个人可能非常缓慢的说”heeeelllllllllllllooooo’!’,产生了一个拥有更多数据也更长的声音文件。这两个文件都应该被识别为同一个文本–“Hello!”。而事实证明,把各种长度的音频文件自动对齐到一个固定长度的文本是很难的一件事情。 为了解决这个问题,我们必须使用一些特殊的技巧,并进行一些深度神经网络以外的特殊处理。让我们看看它是如何工作的吧! 将声音转换为比特(Bit) 显然,语音识别的第一步是–我们需要将声波输入到电脑中。 我们应该怎么将声波转换为数字呢?让我们使用我说的「hello」这个声音片段举个例子: 声波是一维的,它在每个时刻都有一个基于其高度的值。让我们把声波的一小部分放大看看: 为了将这个声波转换成数字,我们只记录声波在等距点的高度: 这被称为采样

APP——语音识别

谁说胖子不能爱 提交于 2020-03-10 08:49:19
//HubuilderX 语音识别插件配置: https://ask.dcloud.net.cn/article/35059 封装的工具类speech.js let instance = null; class Speech { constructor() { if (!instance) { instance = this; } return instance; } // 初始化 语音识别 initRecognize() { plus.speech.addEventListener('start', () => { // console.log('开始语音识别'); this._start(); }, false); plus.speech.addEventListener('volumeChange', ({ volume }) => { // console.log('音量变化', volume); this._volumeChange({ volume }) }, false); plus.speech.addEventListener('recognizing', ({ partialResult }) => { // console.log('临时语音识别结果', partialResult); this._recognizing({ partialResult })

Android 通过调用系统,如接口 谷歌语音、百度语音、科大讯飞语音等语音识别方法对话框

旧巷老猫 提交于 2020-03-09 06:51:59
现在app在发展过程中会集成一些语音识别功能,不具有其自己的显影剂一般正在开发的语音识别引擎,所以在大多数情况下,它是选择一个成熟的语音识别引擎SDK集成到他们的app在。 平时,这种整合被分成两个,一种是直接调用SDK开发商设计了弹出框。互界面;另一种是开发人员仅仅利用SDK提供的语音识别服务,自己开发一个属于自己的交互设计。 本文介绍最简单直接调起弹出框的方法。 首先。測试机须要安装如谷歌语音、百度语音、讯飞语音等产品的语音软件,这时能够在系统设置界面的语言与输入处找到相关的语音识别功能列表。然后就能够直接调用了。 以下是调用的步骤: 首先:在Activity中实例一个intent。intent的action设置为RecognizerIntent.ACTION_RECOGNIZE_SPEECH或者RecognizerIntent.ACTION_WEB_SEARCH,关于RecognizerIntent能够查看本博客之前的文章,然后调用一个带返回结果的操作 <pre name="code" class="java">@Override public void onClick(View v) { Intent intent=new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); //Intent intent=new Intent