微软开源 · 前沿语音 AI 模型

VibeVoice
开源前沿语音 AI

涵盖文本转语音(TTS)和自动语音识别(ASR),以超低帧率 7.5 Hz 连续语音分词器为核心,实现高效长序列处理与高保真音频生成。

🚀 访问项目主页 📄 阅读技术报告
60 min
单次处理时长
7.5 Hz
超低帧率分词
50+
支持语言数
4
多说话人

一系列开源前沿语音 AI 模型

VibeVoice 采用下一 token 扩散框架,利用大语言模型理解文本上下文和对话流程,使用扩散头生成高保真声学细节。

🎙️

连续语音分词器

包含声学分词器和语义分词器,以超低帧率 7.5 Hz 运行,高效保留音频保真度的同时显著提升长序列计算效率。

🧠

下一 Token 扩散

利用大语言模型(LLM)理解文本上下文和对话流程,并使用扩散头生成高保真的声学细节。

长序列处理能力

ASR 可在单次处理中接收长达 60 分钟的音频,TTS 可生成长达 90 分钟的语音,保持全局上下文和说话人一致性。

🌐

多语言原生支持

ASR 原生支持 50 多种语言,TTS 支持英语、中文等多种语言,具备跨语言能力。

三大核心模型

覆盖语音识别、语音合成与实时流式推理全场景

ASR · 语音识别

VibeVoice-ASR-7B

统一的语音转文本模型,可在单次处理中处理长达 60 分钟的长音频,生成包含说话人、时间戳和内容的结构化转录。

🕒

60 分钟单次处理

在 64K token 长度内接收连续音频,确保一致的说话人追踪和语义连贯性

👤

自定义热词

提供特定名称、专业术语或背景信息来引导识别过程,提高领域特定内容准确性

📝

丰富转录输出

同时执行 ASR、说话人分离和时间戳标注,生成谁、何时、说了什么的结构化输出

TTS · 语音合成

VibeVoice-TTS-1.5B

长文本多说话人文本转语音模型,可合成长达 90 分钟、最多 4 个不同说话人的高质量语音。

⏱️

90 分钟长文本生成

在单次处理中合成长达 90 分钟的对话或单人语音,保持全程一致性

👥

多说话人支持

在单次对话中支持最多 4 个不同说话人,具有自然的轮替和说话人一致性

🎭

富有表现力的语音

生成自然逼真的语音,捕捉对话动态和情感细微差别

Streaming · 流式推理

VibeVoice-Realtime-0.5B

轻量级实时文本转语音模型,支持流式文本输入和鲁棒的长文本语音生成。

0.5B 参数量

轻量级模型,便于部署,首次可听延迟约 300 毫秒

📡

流式文本输入

支持实时流式文本输入,适用于交互式对话场景

📏

长文本支持

鲁棒的长文本语音生成能力,支持约 10 分钟连续语音

模型 权重 快速体验
VibeVoice-ASR-7B HF 链接 ↗ 在线体验 ↗
VibeVoice-TTS-1.5B HF 链接 ↗ 已禁用
VibeVoice-Realtime-0.5B HF 链接 ↗ Colab ↗

核心技术架构

基于连续语音分词器与下一 token 扩散框架的创新架构

1
音频输入 原始音频或文本内容
2
连续语音分词器 声学分词器 + 语义分词器 @ 7.5 Hz
3
大语言模型(LLM) 理解文本上下文和对话流程
4
扩散头 生成高保真声学细节
5
输出 高质量语音 / 结构化转录

超低帧率分词

以 7.5 Hz 的超低帧率运行连续语音分词器,在保留音频保真度的同时大幅降低计算开销,使长达 60 分钟的音频处理成为可能。

下一 Token 扩散框架

结合 LLM 的文本理解能力和扩散模型的生成能力,在 token 级别实现高保真的声学细节生成。

统一架构设计

ASR 和 TTS 共享核心架构理念,实现了语音转文本与文本转语音的双向高质量处理。

Transformers 集成

VibeVoice ASR 已纳入 Hugging Face Transformers 正式发布版,可通过标准 API 直接调用和集成。

最新动态

2026-03-06

🚀 VibeVoice ASR 纳入 Transformers 正式版

现在可以通过 Hugging Face Transformers 库直接使用语音识别模型,轻松集成到项目中。

2026-01-21

📣 开源 VibeVoice-ASR

统一的语音转文本模型,支持 60 分钟长音频、结构化转录、50+ 语言、vLLM 推理加速,并发布微调代码和技术报告。

2025-12-16

🎙️ 新增实验性语音角色

为 VibeVoice-Realtime-0.5B 新增九种语言的多语言语音以及 11 种不同风格的英语语音。

2025-12-03

⚡ 开源 VibeVoice-Realtime-0.5B

轻量级实时 TTS 模型,支持流式文本输入和鲁棒的长文本语音生成。

2025-08-25

🎤 开源 VibeVoice-TTS

长文本多说话人 TTS 模型,可合成长达 90 分钟、最多 4 个不同说话人的语音。

⚠️

风险与局限性

模型可能产生意外的、有偏见的或不准确的输出。高质量合成语音可能被滥用于创建虚假音频内容。用户须以合法方式使用,完全遵守相关法律法规。本模型仅供研究和开发用途,不建议在未经测试的情况下用于商业应用。