微软的VALLE人工智能可以模仿短音频样本中的任何声音

2023-01-11 09:16:17冷酷的灯泡

据ArsTechnica报道,微软展示了其在文本到语音 AI 方面的最新研究,其模型名为VALL-E,该模型仅需三秒钟的音频样本即可模拟某人的声音。演讲不仅可以匹配音色,还可以匹配说话者的情绪基调,甚至房间的声学效果。它可能有一天会被用于定制或高端文本到语音的应用程序,尽管它像deepfakes一样存在被滥用的风险。

微软的VALLE人工智能可以模仿短音频样本中的任何声音

VALL-E 是微软所说的“神经编解码器语言模型”。它源自 Meta 的 AI 驱动压缩神经网络编码解码器,从文本输入和来自目标说话者的短样本生成音频。

在一篇论文中,研究人员描述了他们如何在 Meta 的LibriLight音频库中使用来自 7,000 多名演讲者的 60,000 小时英语演讲来训练 VALL-E 。它试图模仿的声音必须与训练数据中的声音非常匹配。如果是这种情况,它会使用训练数据来推断目标说话者在说出所需文本输入时的声音。

该团队在 VALL-E Github 页面上展示了这到底有多好。对于他们希望人工智能“说话”的每个短语,他们都会从说话者那里得到三秒钟的提示来模仿,同一说话者说出另一个短语的“基本事实”进行比较,“基线”传统的文本到语音转换合成和最后的 VALL-E 样本。

结果好坏参半,有些听起来像机器,有些则非常逼真。事实上,它保留了原始样本的情感基调,这才是有效样本的卖点。它还忠实地匹配声学环境,因此如果扬声器在回声 y 大厅中录制他们的声音,VALL-E 输出听起来也像是来自同一个地方。

为了改进模型,微软计划扩大其训练数据,“以提高模型在韵律、说话风格和说话人相似性方面的表现。” 它还在探索减少不清楚或遗漏单词的方法。

微软选择不将代码开源,这可能是由于 AI 固有的风险,可能会把话塞进别人的嘴里。它补充说,它将在任何进一步的开发中遵循其“Microsoft AI Principals”。该公司在其结论的“更广泛的影响”部分写道:“由于 VALL-E 可以合成保持说话者身份的语音,它可能会带来滥用模型的潜在风险,例如欺骗语音识别或冒充他人。”

推荐阅读

阅读排行