Cointime

扫码下载App
iOS & Android

Meta 发布了文本生成语音的模型 Voicebox

Cointime 6 月 17 日消息:Meta 发布了一款名为 Voicebox 的生成式文本转语音模型,它可以像 ChatGPT 和 Dall-E 一样将文本转化为音频片段。该系统使用超过 50,000 小时的未经过滤的录音进行训练,并可生成更具对话性的语音。与现有 TTS 模型相比,计算机生成的语音仅出现 1%错误率下降,而不是 45%至 70%。此外,Voicebox 还能够主动编辑音频剪辑并消除噪声以及替换口误单词。虽然该应用程序尚未公开发布源代码,但研究人员希望这项技术将来能够应用于假肢、游戏 NPC 和数字助手等领域中。

评论

所有评论

推荐阅读