Meta Voicebox——生成式语音AI模型,文本引导的多语言通用语音生成,零样本TTS性能超越VALL-E

你有没有想过,如果能让AI像说话一样自然地"填充"语音片段?比如你录了一段话,中间说错了,AI能自动帮你重录那部分,而且听起来完全无缝?或者你只有几秒钟的样本,AI就能克隆你的声音读任意文本?🤔

2023年,Meta 发布了 Voicebox——第一个大规模、文本引导的生成式语音模型。它不同于传统的TTS系统,而是像 GPTDALL-E 一样,是一个通用的语音生成器,能通过上下文学习完成多种语音任务,是目前最具通用性的语音生成模型之一!🚀

🎯 核心亮点

  • 🎤 通用语音生成器:非自回归流匹配模型,训练目标为语音填充(给定音频上下文和文本,填充缺失部分)
  • 🌍 多语言支持:支持单语言和跨语言的零样本TTS
  • ⚡ 速度极快:比 VALL-E 快 20倍
  • 🏆 超越VALL-E:词错误率 1.9% vs 5.9%,音频相似度 0.681 vs 0.580
  • 💪 大规模训练:在 5万+小时 未经过滤的语音数据上训练
  • 🎯 多任务全能:零样本TTS、降噪、内容编辑、风格转换、多样化样本生成

🔧 核心能力

Voicebox 是一个基于 非自回归流匹配(Flow Matching) 的语音填充模型。它不仅能像GPT那样通过上下文学习完成任务,更灵活的是它还能根据未来上下文进行条件生成。

🎙️ 零样本TTS(单语言 & 跨语言)

只需几秒参考音频,就能生成目标说话人的自然语音。不仅是同语言,还能跨语言生成——比如用中文样本生成说英文的语音。

🔊 降噪与内容编辑

录制的音频有背景噪音?或者某句话想重录?Voicebox 可以智能去除噪音,或者仅编辑替换指定片段,保持整体语音风格一致。

🎭 风格转换

将一段语音的风格(语气、情感、语速)迁移到另一段语音上,保持内容不变但改变表达方式。

🎲 多样化样本生成

给定同样的文本,生成不同风格/语调的多个语音样本,为内容创作提供丰富选择。

📊 性能对比

指标VoiceboxVALL-E
词错误率(WER)1.9%5.9%
音频相似度0.6810.580
生成速度比VALL-E快20倍基准

💻 开源实现

SpeechifyInc 在 GitHub 上开源了 Meta-Voicebox 的实现(基于 PyTorch),采用 MIT 许可证,方便开发者使用和研究。

项目地址:https://github.com/SpeechifyInc/Meta-voicebox

📝 总结

Meta Voicebox 是生成式语音领域的一个里程碑。它首次证明了大规模非自回归流匹配模型在通用语音生成上的潜力,在零样本TTS、降噪、内容编辑等多个任务上都达到了SOTA水平。虽然目前开源实现还比较基础(主要是推理部分),但它为语音AI的未来发展指明了方向。对于从事语音技术研究的开发者来说,Voicebox 绝对值得深入研究和体验!👍

🔬 论文地址Meta AI Blog - Voicebox

📦 开源实现SpeechifyInc/Meta-voicebox(MIT 许可证)

📄 论文:Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale

上一篇 腾讯 Marvis(马维斯)——操作系统层级AI助手,内置6个Agent协同工作,一句话操控你的电脑
下一篇 World Monitor——开源实时全球情报面板,AI驱动的新闻聚合与地缘政治监控,54K+ Star