微软的VALLE人工智能可以模仿短音频样本中的任何声音

2023-01-11 09:16:17冷酷的灯泡

据ArsTechnica报道，微软展示了其在文本到语音 AI 方面的最新研究，其模型名为VALL-E，该模型仅需三秒钟的音频样本即可模拟某人的声音。演讲不仅可以匹配音色，还可以匹配说话者的情绪基调，甚至房间的声学效果。它可能有一天会被用于定制或高端文本到语音的应用程序，尽管它像deepfakes一样存在被滥用的风险。

VALL-E 是微软所说的“神经编解码器语言模型”。它源自 Meta 的 AI 驱动压缩神经网络编码解码器，从文本输入和来自目标说话者的短样本生成音频。

在一篇论文中，研究人员描述了他们如何在 Meta 的LibriLight音频库中使用来自 7,000 多名演讲者的 60,000 小时英语演讲来训练 VALL-E 。它试图模仿的声音必须与训练数据中的声音非常匹配。如果是这种情况，它会使用训练数据来推断目标说话者在说出所需文本输入时的声音。

该团队在 VALL-E Github 页面上展示了这到底有多好。对于他们希望人工智能“说话”的每个短语，他们都会从说话者那里得到三秒钟的提示来模仿，同一说话者说出另一个短语的“基本事实”进行比较，“基线”传统的文本到语音转换合成和最后的 VALL-E 样本。

结果好坏参半，有些听起来像机器，有些则非常逼真。事实上，它保留了原始样本的情感基调，这才是有效样本的卖点。它还忠实地匹配声学环境，因此如果扬声器在回声 y 大厅中录制他们的声音，VALL-E 输出听起来也像是来自同一个地方。

为了改进模型，微软计划扩大其训练数据，“以提高模型在韵律、说话风格和说话人相似性方面的表现。” 它还在探索减少不清楚或遗漏单词的方法。

微软选择不将代码开源，这可能是由于 AI 固有的风险，可能会把话塞进别人的嘴里。它补充说，它将在任何进一步的开发中遵循其“Microsoft AI Principals”。该公司在其结论的“更广泛的影响”部分写道：“由于 VALL-E 可以合成保持说话者身份的语音，它可能会带来滥用模型的潜在风险，例如欺骗语音识别或冒充他人。”

标签：文本模型样本

声明：本站所有作品图文均由用户自行上传分享，仅供网友学习交流。若您的权利被侵害，请联系我们

上一篇：据报道到2025年苹果将在iPhone中使用内部无线芯片下一篇：漫威发布了全新的蚁人与黄蜂女量子狂热预告片

微软的VALLE人工智能可以模仿短音频样本中的任何声音

推荐阅读

中国平安保险好吗，中国平安保险怎么样

nba每年几月份开始打，nba每年几月份开打

汽车的gps是什么，汽车gps是什么意思

女子100米奥运纪录是多少秒钟，女子100米奥运纪录是多少秒

西安专业验房师去哪里找，西安验房师哪里找

华为路由器192.168.3.1，192.168.3.1华为路由器登录入口

北京房产中介费一般收多少钱，北京房产中介费一般收多少

投资一个汽车电影院多少钱，开一个汽车电影院需要多少钱

苹果发布会最新产品，苹果发布会新品有哪些

广州亚运会主体育场，广州亚运会主会场在哪

阅读排行

网站分类

标签列表