VoxCPM2——开源2B参数语音合成大模型,支持30种语言+音色设计+48kHz音质

说到语音合成(TTS),大家可能会觉得「声音不自然」「支持语言少」「克隆需要大量音频」是通病。最近面壁智能OpenBMB开源的VoxCPM2,直接把TTS体验拉到了新高度:2B参数、30种语言+8大方言、无参考音频直接设计音色、48kHz录音棚级音质,而且完全开源可商用。

什么是VoxCPM2?

VoxCPM2是VoxCPM系列的最新版本,是面壁智能联合清华大学人机语音交互实验室推出的新一代语音大模型。它采用无分词器(Tokenizer-Free)的扩散自回归架构,端到端直接生成连续语音表示,绕过了传统TTS的离散分词步骤,语音自然度和表现力大幅提升。

模型大小2B参数,在超过200万小时的多语言语音数据上训练而成,支持30种主流语言和8种中文方言,一经发布就在GitHub上斩获近7万Star。

核心亮点

  1. 🌍 30种语言+8大方言支持:阿拉伯语、英语、法语、日语、韩语、泰语等30种语言,外加四川话、粤语、吴语、东北话、闽南话等8种中文方言,输入文本自动识别语言,不需要加语言标签
  2. 🎨 音色设计功能不需要参考音频,只用自然语言描述音色就能生成全新声音。比如写「(年轻女生,温柔甜美语气)欢迎使用VoxCPM2」,模型就能生成符合描述的音色,完全自定义声音人设
  3. 🎛️ 可控声音克隆:只需一段短音频就能克隆音色,还可以在克隆的基础上调整语速、情绪、风格,保留原音色的同时灵活调整表达效果
  4. 🎙️ 极致克隆:提供参考音频+对应文本的话,能1:1还原音色、节奏、情感、风格的每一个细节,几乎和真人一样
  5. 🔊 48kHz超高清音质:哪怕输入16kHz的参考音频,也能直接输出48kHz录音棚级音质,自带超分辨率,不需要额外上采样器
  6. 🧠 上下文感知合成:自动根据文本内容推断合适的韵律和情感,读文章、讲故事、播报新闻都能匹配正确的语气
  7. ⚡ 实时流式合成:RTX4090上RTF低至0.3,用vLLM加速可以到0.13,完全满足实时对话场景
  8. 📜 开源可商用:Apache-2.0协议,代码和权重完全开放,商业使用免费

快速上手

安装

pip install voxcpm

要求Python≥3.10,PyTorch≥2.5.0,CUDA≥12.0。

基础语音合成

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
  "openbmb/VoxCPM2",
  load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2是面向多语言语音生成的开源TTS模型,支持30种语言和音色设计功能。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

音色设计(无参考音频)

把音色描述放在括号里,写在文本开头就行:

wav = model.generate(
    text="(中年男性,沉稳磁性声音)欢迎收听本次科技新闻播报。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("custom_voice.wav", wav, model.tts_model.sample_rate)

声音克隆

# 基础克隆
wav = model.generate(
    text="这是通过VoxCPM2克隆的声音。",
    reference_wav_path="path/to/your_voice.wav",
)

# 可控克隆,调整情绪和语速
wav = model.generate(
    text="(语速稍快,兴奋语气)这是调整风格后的克隆声音!",
    reference_wav_path="path/to/your_voice.wav",
)

部署方案

如果要部署到生产环境,官方推荐用Nano-vLLM或者vLLM-Omni加速,支持PagedAttention和OpenAI兼容API:

# 用vLLM部署
pip install vllm-omni
vllm serve openbmb/VoxCPM2 --trust-remote-code

部署后就可以用OpenAI SDK直接调用,完全兼容现有生态。

适用场景

  • 有声书/播客制作:自定义主播音色,批量生成有声内容
  • 视频配音:自媒体、短视频旁白配音,克隆自己的声音不用自己出镜录音
  • 智能客服/语音助手:个性化音色,多语言支持,实时响应
  • 无障碍工具:为视障用户提供高质量的文本转语音服务
  • 多语言内容本地化:快速生成多语言语音版本,不需要找不同母语的配音员
  • AI虚拟人:为虚拟人定制专属音色,支持情感表达

和其他TTS模型对比

  • 相比开源的Bark、XTTS,VoxCPM2的自然度更高、支持语言更多、克隆效果更好,而且支持音色设计功能

总结

VoxCPM2是目前开源TTS领域的第一梯队选手,不管是个人开发者做小项目,还是企业做商用部署都完全够用。尤其是音色设计功能非常有创意,不需要参考音频就能生成各种自定义音色,做内容创作的朋友一定要试试。

项目地址:https://github.com/OpenBMB/VoxCPM

在线体验:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

上一篇 The Agency——147个专业AI智能体合集,给你的AI分配一个专业角色
下一篇 awesome-selfhosted——开源自托管应用的宝藏资源库