
你有没有想过,如果能让AI像说话一样自然地"填充"语音片段?比如你录了一段话,中间说错了,AI能自动帮你重录那部分,而且听起来完全无缝?或者你只有几秒钟的样本,AI就能克隆你的声音读任意文本?🤔
2023年,Meta 发布了 Voicebox——第一个大规模、文本引导的生成式语音模型。它不同于传统的TTS系统,而是像 GPT 或 DALL-E 一样,是一个通用的语音生成器,能通过上下文学习完成多种语音任务,是目前最具通用性的语音生成模型之一!🚀
🎯 核心亮点
- 🎤 通用语音生成器:非自回归流匹配模型,训练目标为语音填充(给定音频上下文和文本,填充缺失部分)
- 🌍 多语言支持:支持单语言和跨语言的零样本TTS
- ⚡ 速度极快:比 VALL-E 快 20倍
- 🏆 超越VALL-E:词错误率 1.9% vs 5.9%,音频相似度 0.681 vs 0.580
- 💪 大规模训练:在 5万+小时 未经过滤的语音数据上训练
- 🎯 多任务全能:零样本TTS、降噪、内容编辑、风格转换、多样化样本生成
🔧 核心能力
Voicebox 是一个基于 非自回归流匹配(Flow Matching) 的语音填充模型。它不仅能像GPT那样通过上下文学习完成任务,更灵活的是它还能根据未来上下文进行条件生成。
🎙️ 零样本TTS(单语言 & 跨语言)
只需几秒参考音频,就能生成目标说话人的自然语音。不仅是同语言,还能跨语言生成——比如用中文样本生成说英文的语音。
🔊 降噪与内容编辑
录制的音频有背景噪音?或者某句话想重录?Voicebox 可以智能去除噪音,或者仅编辑替换指定片段,保持整体语音风格一致。
🎭 风格转换
将一段语音的风格(语气、情感、语速)迁移到另一段语音上,保持内容不变但改变表达方式。
🎲 多样化样本生成
给定同样的文本,生成不同风格/语调的多个语音样本,为内容创作提供丰富选择。
📊 性能对比
| 指标 | Voicebox | VALL-E |
|---|---|---|
| 词错误率(WER) | 1.9% | 5.9% |
| 音频相似度 | 0.681 | 0.580 |
| 生成速度 | 比VALL-E快20倍 | 基准 |
💻 开源实现
SpeechifyInc 在 GitHub 上开源了 Meta-Voicebox 的实现(基于 PyTorch),采用 MIT 许可证,方便开发者使用和研究。
项目地址:https://github.com/SpeechifyInc/Meta-voicebox
📝 总结
Meta Voicebox 是生成式语音领域的一个里程碑。它首次证明了大规模非自回归流匹配模型在通用语音生成上的潜力,在零样本TTS、降噪、内容编辑等多个任务上都达到了SOTA水平。虽然目前开源实现还比较基础(主要是推理部分),但它为语音AI的未来发展指明了方向。对于从事语音技术研究的开发者来说,Voicebox 绝对值得深入研究和体验!👍
🔬 论文地址:Meta AI Blog - Voicebox
📦 开源实现:SpeechifyInc/Meta-voicebox(MIT 许可证)
📄 论文:Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale