语音合成最新进展
Tacotron2 前置知识 通过时域到频域的变换,可以得到从侧面看到的 频谱 ,但是这个频谱并没有包含时域的中全部的信息,因为频谱只代表各个频率正弦波的振幅是多少,而没有提到相位。基础的正弦波$Asin(wt+\theta)$中,振幅、频率和相位缺一不可。不同相位决定了波的位置,所以对于频域分析,仅有频谱是不够的,还需要一个相位谱。 时域谱:时间-振幅 频域谱:频率-振幅 相位谱:相位-振幅 参见: 傅里叶分析之掐死教程(完整版)更新于2014.06.06 传统语音合成: 单元挑选和拼接:将事先录制好的语音波形小片段缝合在一起。边界人工痕迹明显 统计参数:直接合成语音特征的平滑轨迹,交由声码器合成语音。发音模糊不清且不自然 Tacotron2分为两部分: 一个seq2seq结构的特征预测网络,将字符向量映射到梅尔声谱图 一个WaveNet修订版,将梅尔声谱图合成为时域波形 梅尔频谱是对短时傅里叶变换获得的声谱(即线性声谱)频率轴施加一个非线性变换,其依据人耳特性:低频细节对语音的理解十分关键,而高频细节可以淡化,对频率压缩变换而得。Tacotron2使用低层的声学特征梅尔声谱图来衔接两个部分的原因: 梅尔频谱容易通过时域波形计算得到 梅尔频谱对于每一帧都是相位不变的,容易使用均方差(MSE)训练 梅尔声谱抛弃了相位信息,而像Griffin-Lim算法对抛弃的相位信息进行估计