一上台就紧张?这个模型生成演讲替身,肢体语言比总统候选人还丰富
只输入语音便能生成人体姿势。瑞典皇家理工学院的研究者做到了! 你能看出上图中的人物姿势是仅基于一段语音生成的吗? 基于语音生成上半身动作甚至全身姿势,并实现速度、对称度等高级的姿势控制,瑞典皇家理工学院的一项研究做到了。 该研究提出的方法不仅能够基于语音合成对应的姿势,还可以为同样的语音生成不同的姿势: 上面这两组姿势竟然表达的是同一段话? 仅仅这样还不够,该方法还提供高级的风格控制,比如速度: 左右方姿势的对称度: 说话时姿势动作的半径范围,动作幅度的大小尽在掌控: 甚至还能控制一侧手臂的高度位置: 此外,该方法还可以生成全身的姿势动态,包括站姿的变化和脚步的移动: 具体效果参见视频: 00:00/00:00倍速 Demo 展示的效果征服了一批 reddit 网友。他们表示,如果能将这个技术用在游戏(如《无人深空》)或 VR 产业,那么无需昂贵的人体动作捕捉就能生成逼真的高质量动作,这可以大大降低游戏的开发成本,也能让对话情境下的 VR 人物更加逼真。 那么,如此逼真的姿势动作是如何生成的呢?我们来看这项研究的具体细节。 只用语音生成人物姿势 逼真姿势的自动合成有望改变动画、替身和交际智能体领域。在离线应用中,新工具可以将动画师的角色转变为导演