tacotron

语音合成最新进展

Deadly 提交于 2020-10-28 06:05:08
Tacotron2 前置知识 通过时域到频域的变换,可以得到从侧面看到的 频谱 ,但是这个频谱并没有包含时域的中全部的信息,因为频谱只代表各个频率正弦波的振幅是多少,而没有提到相位。基础的正弦波$Asin(wt+\theta)$中,振幅、频率和相位缺一不可。不同相位决定了波的位置,所以对于频域分析,仅有频谱是不够的,还需要一个相位谱。 时域谱:时间-振幅 频域谱:频率-振幅 相位谱:相位-振幅 参见: 傅里叶分析之掐死教程(完整版)更新于2014.06.06 传统语音合成: 单元挑选和拼接:将事先录制好的语音波形小片段缝合在一起。边界人工痕迹明显 统计参数:直接合成语音特征的平滑轨迹,交由声码器合成语音。发音模糊不清且不自然 Tacotron2分为两部分: 一个seq2seq结构的特征预测网络,将字符向量映射到梅尔声谱图 一个WaveNet修订版,将梅尔声谱图合成为时域波形 梅尔频谱是对短时傅里叶变换获得的声谱(即线性声谱)频率轴施加一个非线性变换,其依据人耳特性:低频细节对语音的理解十分关键,而高频细节可以淡化,对频率压缩变换而得。Tacotron2使用低层的声学特征梅尔声谱图来衔接两个部分的原因: 梅尔频谱容易通过时域波形计算得到 梅尔频谱对于每一帧都是相位不变的,容易使用均方差(MSE)训练 梅尔声谱抛弃了相位信息,而像Griffin-Lim算法对抛弃的相位信息进行估计

情感语音合成技术难点突破与未来展望

ε祈祈猫儿з 提交于 2020-08-13 14:40:58
Photo by Lukas from Pexels 语音技术的进步,让机器合成的声音不再顿挫、冰冷,在自然度和可懂度等方面取得了不错的成绩,但当前合成效果在合成音的表现力上,特别是语气和情感方面,还存在不足。声音如果缺少情感,何谈表现力 ,又如何能提高用户交互的意愿?本文由标贝科技联合创始人兼CTO李秀林LiveVideoStack线上分享内容整理而成。 文 / 李秀林 整理 / LiveVideoStack 回放链接:https://www.livevideostack.cn/video/sillon/ 大家好,我是标贝科技的李秀林,非常高兴能与大家分享情感语音合成的事情。 在语音交互中语音识别、语音合成、语音理解是必不可少的环节。语音识别,也就是识别用户说的话。识别完成后,系统需要理解用户语言背后的含义,我们称之为语义理解。理解到用户的诉求后,需要寻找答案并给出响应。通常情况下,我们会首先得到一份文本形式的答案,然后再将文本通过语音合成,模仿人说话的形式反馈给用户,这也就形成一轮完整的语音交互。 语音交互过程涉及语音合成,即把文字变成声音,声音是文字内容的一个信息载体。语音交互是日常生活中最常见、最被人熟悉并乐于接受的展现形式,例如:人与人说话、看电视、听收音机、与音响交互等等。体验效果的好坏,会对用户的感知造成很大影响。如果语音合成质量较好,说话效果更接近真人