[转载]HMM+GMM语音识别技术
仅做备份 原文链接:https://blog.csdn.net/fandaoerji/article/details/44853853 ———————————————— HMM+GMM语音识别技术详解级PMTK3中的实例 本人正在攻读计算机博士学位,目前一直再学习各种模型啊算法之类的。所以一直想把自己的学习过程总结一下,所以就开通了这个博客。 这两天一直再看语音识别方面的知识,想把自己的理解总结一下,希望对其他学习的人有所帮助。 提前需要掌握的知识: 语音信号基础:语音信号的表示形式、分帧、特征(MFCC)、音素等等 HMM模型:离散隐马尔科夫模型级3个问题的求解方法 GMM:混合高斯模型,用于连续隐马尔科夫模型。 语音数据处理 语音信号计算机中是采用PCM编码按时间序列保存的一连串数据。计算机中最原始语音文件是wav,可以通过各种录音软件录制,录制是包括三个参数 fs:采样率 8000Hz 115200Hz 等等,代表每1秒保存的语音数据点数 bits:每个采样点用几个二进制保存 通道:很多音频都有左右2个通道,在语音识别中通常有一个通道的数据就够了。 下面是一个 apple.wav 文件在matlab中的例子: [x fs bit]=wavread('apple.wave'); plot(x); -------------- fs =8000 bits =16 --------