mfcc

MFCC(Mel 倒谱系数)

匿名 (未验证) 提交于 2019-12-03 00:32:02
Mel倒谱系数 Mel倒谱系数:MFCC Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient)的缩写是MFCC,Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。 用录音设备录制一段模拟语音信号后,经由自定的取样频率(如8000 Hz、16000 Hz等)采样后转换(A/D)为数字语音信号。由于在时域(time domain)上语音信号的波形变化相当快速、不易观察,因此一般都会在频域(frequency domain)上来观察,其频谱是随着时间而缓慢变化的,因此通常可以假设在一较短时间中,其语音信号的特性是稳定的,通常我们定义这个较短时间为一帧(frame),根据人的语音的音调周期值的变化,一般取10~20ms。 Mel-frequency cepstrum coefficient 作用: 和线性预测倒谱系数LPCC一起用于描述语音特征的参数:能量,基音频率,共振峰值等。 详解几个概念: 1.Mel频率: 是模拟人耳对不同频率语音的感知。 人类对不同频率语音有不同的感知能力: 对1kHz以下,与频率成线性关系,对1kHz以上,与频率成对数关系。频率越高,感知能力就越差了。 因此,在应用中常常只使用低频MFCC,而丢弃中高频MFCC。 2.倒谱:

MFCC python plot

匿名 (未验证) 提交于 2019-12-02 22:54:36
#!/usr/bin/env python import os from python_speech_features import mfcc from python_speech_features import delta from python_speech_features import logfbank import scipy.io.wavfile as wav import pickle import numpy as np import matplotlib.pyplot as plt rootdir = '...' #wavw文件的路径 list = os.listdir(rootdir) dic = {} for i in range( 0 , len(list)): path = os.path.join(rootdir, list[i]) if os.path.isfile(path): print(list[i]) (rate,sig) = wav.read(path) # plt.plot(sig[:3000]) #plt.show() mfcc_feat = mfcc(sig,rate) #, nfft=551 mfcc_feat -= (np.mean(mfcc_feat, axis= 0 ) + 1e-8 ) mfcc_feat2 = mfcc

一些常用的语音特征提取算法

試著忘記壹切 提交于 2019-12-02 02:10:48
前言   语言是一种复杂的自然习得的人类运动能力。成人的特点是通过大约100块肌肉的协调运动,每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号,识别语音信号中出现的说话人,然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此,可接受的分类是从优良和优质的特征中衍生出来的。Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)是本章讨论的语音特征提取技术。这些方法已经在广泛的应用中进行了测试,使它们具有很高的可靠性和可接受性。研究人员对上述讨论的技术做了一些修改,使它们更不受噪音影响,更健壮,消耗的时间更少。总之,没有一种方法优于另一种,应用范围将决定选择哪种方法。 本文主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散小波变换(DWT),感知线性预测(PLP) 1 介绍   人类通过言语来表达他们的感情、观点、观点和观念。语音生成过程包括发音、语音和流利性[1,2]。这是一种复杂的自然习得的人类运动能力,在正常成年人中,这项任务是通过脊椎和颅神经连接的大约100块肌肉协调运动,每秒发出大约14种不同的声音

How can I obtain the raw audio frames from the microphone in real-time or from a saved audio file in iOS?

人走茶凉 提交于 2019-12-01 22:55:57
问题 I am trying to extract MFCC vectors from the audio signal as input into a recurrent neural network. However, I am having trouble figuring out how to obtain the raw audio frames in Swift using Core Audio. Presumably, I have to go low-level to get that data, but I cannot find helpful resources in this area. How can I get the audio signal information that I need using Swift? Edit : This question was flagged as a possible duplicate of How to capture audio samples in iOS with Swift?. However, that

keras实现声音二分类

百般思念 提交于 2019-11-30 09:33:05
基于深度学习的声音分类 前言 今天花了一天时间来复现哭声识别,从网上找了很多资料发现整合起来还是比较困难的。这里我做一下笔记方便后面的学习,希望对大家也有一定的帮助。 基础知识 音频与我们生活有着十分联系。 我们的大脑不断处理和理解音频数据,并为您提供有关环境的信息。 一个简单的例子就是你每天与人交谈。 这个演讲被另一个人看出来进行讨论。 即使你认为自己处于一个安静的环境中,你也会听到更微妙的声音,比如树叶的沙沙声或雨水的飞溅。 这是您与音频连接的程度。所以你能以某种方式抓住你周围的音频,做一些有建设性的事情吗? 当然是! 有一些设备可以帮助您捕获这些声音并以计算机可读格式表示。 这些格式是: wav(波形音频文件)格式 mp3(MPEG-1 Audio Layer 3)格式 WMA(Windows Media Audio)格式 音频处理的是目前深度学习应用做火热的方向之一,虽然我们讨论过音频数据可用于分析。 但是音频处理的潜在应用是什么? 在这里,我将列出其中的一些: 根据音频功能索引音乐集 推荐用于广播频道的音乐 相似性搜索音频文件(又名Shazam) 语音处理和合成 - 为会话代理生成人工语音 当我们对音频数据进行采样时,我们需要更多的数据点来表示整个数据,并且采样率应该尽可能高。另一方面,如果我们在频域中表示音频数据,则需要更少的计算空间。 实战 ​ 传统的语音识别技术

语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现

倾然丶 夕夏残阳落幕 提交于 2019-11-30 05:23:31
梅尔倒谱系数(MFCC)   梅尔倒谱系数(Mel-scale FrequencyCepstral Coefficients,简称MFCC)。依据人的听觉实验结果来分析语音的频谱, MFCC分析依据的听觉机理有两个 第一Mel scale:人耳感知的声音频率和声音的实际频率并不是线性的,有下面公式 $$f_{mel}=2595*\log _{10}(1+\frac{f}{700})$$ $$f = 700 (10^{f_{mel}/2595} - 1)$$ 式中$f_{mel}$是以梅尔(Mel)为单位的感知频域(简称梅尔频域),$f$是以$Hz$为单位的实际语音频率。$f_{mel}$与$f$的关系曲线如下图所示,若能将语音信号的频域变换为感知频域中,能更好的模拟听觉过程的处理。 第二临界带(Critical Band):把进入人耳的声音频率用临界带进行划分,将语音在频域上就被划分成一系列的频率群,组成了滤波器组,即Mel滤波器组。   研究表明 ,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响较大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为 掩蔽效应 。   由于频率较低的声音( 低音 )在内耳蜗基底膜上行波 传递距离 大于 频率较高的声音( 高音

Building Speech Dataset for LSTM binary classification

血红的双手。 提交于 2019-11-27 16:09:35
I'm trying to do binary LSTM classification using theano. I have gone through the example code however I want to build my own. I have a small set of "Hello" & "Goodbye" recordings that I am using. I preprocess these by extracting the MFCC features for them and saving these features in a text file. I have 20 speech files(10 each) and I am generating a text file for each word, so 20 text files that contains the MFCC features. Each file is a 13x56 matrix. My problem now is: How do I use this text file to train the LSTM? I am relatively new to this. I have gone through some literature on it as