涵盖文本转语音(TTS)和自动语音识别(ASR),以超低帧率 7.5 Hz 连续语音分词器为核心,实现高效长序列处理与高保真音频生成。
VibeVoice 采用下一 token 扩散框架,利用大语言模型理解文本上下文和对话流程,使用扩散头生成高保真声学细节。
包含声学分词器和语义分词器,以超低帧率 7.5 Hz 运行,高效保留音频保真度的同时显著提升长序列计算效率。
利用大语言模型(LLM)理解文本上下文和对话流程,并使用扩散头生成高保真的声学细节。
ASR 可在单次处理中接收长达 60 分钟的音频,TTS 可生成长达 90 分钟的语音,保持全局上下文和说话人一致性。
ASR 原生支持 50 多种语言,TTS 支持英语、中文等多种语言,具备跨语言能力。
覆盖语音识别、语音合成与实时流式推理全场景
统一的语音转文本模型,可在单次处理中处理长达 60 分钟的长音频,生成包含说话人、时间戳和内容的结构化转录。
在 64K token 长度内接收连续音频,确保一致的说话人追踪和语义连贯性
提供特定名称、专业术语或背景信息来引导识别过程,提高领域特定内容准确性
同时执行 ASR、说话人分离和时间戳标注,生成谁、何时、说了什么的结构化输出
在单次处理中合成长达 90 分钟的对话或单人语音,保持全程一致性
在单次对话中支持最多 4 个不同说话人,具有自然的轮替和说话人一致性
生成自然逼真的语音,捕捉对话动态和情感细微差别
轻量级模型,便于部署,首次可听延迟约 300 毫秒
支持实时流式文本输入,适用于交互式对话场景
鲁棒的长文本语音生成能力,支持约 10 分钟连续语音
基于连续语音分词器与下一 token 扩散框架的创新架构
以 7.5 Hz 的超低帧率运行连续语音分词器,在保留音频保真度的同时大幅降低计算开销,使长达 60 分钟的音频处理成为可能。
结合 LLM 的文本理解能力和扩散模型的生成能力,在 token 级别实现高保真的声学细节生成。
ASR 和 TTS 共享核心架构理念,实现了语音转文本与文本转语音的双向高质量处理。
VibeVoice ASR 已纳入 Hugging Face Transformers 正式发布版,可通过标准 API 直接调用和集成。
现在可以通过 Hugging Face Transformers 库直接使用语音识别模型,轻松集成到项目中。
统一的语音转文本模型,支持 60 分钟长音频、结构化转录、50+ 语言、vLLM 推理加速,并发布微调代码和技术报告。
为 VibeVoice-Realtime-0.5B 新增九种语言的多语言语音以及 11 种不同风格的英语语音。
轻量级实时 TTS 模型,支持流式文本输入和鲁棒的长文本语音生成。
长文本多说话人 TTS 模型,可合成长达 90 分钟、最多 4 个不同说话人的语音。
模型可能产生意外的、有偏见的或不准确的输出。高质量合成语音可能被滥用于创建虚假音频内容。用户须以合法方式使用,完全遵守相关法律法规。本模型仅供研究和开发用途,不建议在未经测试的情况下用于商业应用。