VibeVoice — 开源前沿语音 AI

概述

一系列开源前沿语音 AI 模型

VibeVoice 采用下一 token 扩散框架，利用大语言模型理解文本上下文和对话流程，使用扩散头生成高保真声学细节。

🎙️

连续语音分词器

包含声学分词器和语义分词器，以超低帧率 7.5 Hz 运行，高效保留音频保真度的同时显著提升长序列计算效率。

🧠

下一 Token 扩散

利用大语言模型（LLM）理解文本上下文和对话流程，并使用扩散头生成高保真的声学细节。

⚡

长序列处理能力

ASR 可在单次处理中接收长达 60 分钟的音频，TTS 可生成长达 90 分钟的语音，保持全局上下文和说话人一致性。

🌐

多语言原生支持

ASR 原生支持 50 多种语言，TTS 支持英语、中文等多种语言，具备跨语言能力。

模型

三大核心模型

覆盖语音识别、语音合成与实时流式推理全场景

ASR · 语音识别

VibeVoice-ASR-7B

统一的语音转文本模型，可在单次处理中处理长达 60 分钟的长音频，生成包含说话人、时间戳和内容的结构化转录。

🤗 模型权重 🎮 在线体验 📊 论文

🕒

60 分钟单次处理

在 64K token 长度内接收连续音频，确保一致的说话人追踪和语义连贯性

👤

自定义热词

提供特定名称、专业术语或背景信息来引导识别过程，提高领域特定内容准确性

📝

丰富转录输出

同时执行 ASR、说话人分离和时间戳标注，生成谁、何时、说了什么的结构化输出

TTS · 语音合成

VibeVoice-TTS-1.5B

长文本多说话人文本转语音模型，可合成长达 90 分钟、最多 4 个不同说话人的高质量语音。

🤗 模型权重 📊 论文

⏱️

90 分钟长文本生成

在单次处理中合成长达 90 分钟的对话或单人语音，保持全程一致性

👥

多说话人支持

在单次对话中支持最多 4 个不同说话人，具有自然的轮替和说话人一致性

🎭

富有表现力的语音

生成自然逼真的语音，捕捉对话动态和情感细微差别

Streaming · 流式推理

VibeVoice-Realtime-0.5B

轻量级实时文本转语音模型，支持流式文本输入和鲁棒的长文本语音生成。

🤗 模型权重 🚀 Colab

⚡

0.5B 参数量

轻量级模型，便于部署，首次可听延迟约 300 毫秒

📡

流式文本输入

支持实时流式文本输入，适用于交互式对话场景

📏

长文本支持

鲁棒的长文本语音生成能力，支持约 10 分钟连续语音

模型	权重	快速体验
VibeVoice-ASR-7B	HF 链接 ↗	在线体验 ↗
VibeVoice-TTS-1.5B	HF 链接 ↗	已禁用
VibeVoice-Realtime-0.5B	HF 链接 ↗	Colab ↗

技术

核心技术架构

基于连续语音分词器与下一 token 扩散框架的创新架构

音频输入原始音频或文本内容

连续语音分词器声学分词器 + 语义分词器 @ 7.5 Hz

大语言模型（LLM）理解文本上下文和对话流程

扩散头生成高保真声学细节

输出高质量语音 / 结构化转录

超低帧率分词

以 7.5 Hz 的超低帧率运行连续语音分词器，在保留音频保真度的同时大幅降低计算开销，使长达 60 分钟的音频处理成为可能。

下一 Token 扩散框架

结合 LLM 的文本理解能力和扩散模型的生成能力，在 token 级别实现高保真的声学细节生成。

统一架构设计

ASR 和 TTS 共享核心架构理念，实现了语音转文本与文本转语音的双向高质量处理。

Transformers 集成

VibeVoice ASR 已纳入 Hugging Face Transformers 正式发布版，可通过标准 API 直接调用和集成。

动态

VibeVoice
开源前沿语音 AI

一系列开源前沿语音 AI 模型

连续语音分词器

下一 Token 扩散

长序列处理能力

多语言原生支持

三大核心模型

VibeVoice-ASR-7B

60 分钟单次处理

自定义热词

丰富转录输出

VibeVoice-TTS-1.5B

90 分钟长文本生成

多说话人支持

富有表现力的语音

VibeVoice-Realtime-0.5B

0.5B 参数量

流式文本输入

长文本支持

核心技术架构

超低帧率分词

下一 Token 扩散框架

统一架构设计

Transformers 集成

最新动态

🚀 VibeVoice ASR 纳入 Transformers 正式版

📣 开源 VibeVoice-ASR

🎙️ 新增实验性语音角色

⚡ 开源 VibeVoice-Realtime-0.5B

🎤 开源 VibeVoice-TTS

风险与局限性

VibeVoice 开源前沿语音 AI

一系列开源前沿语音 AI 模型

连续语音分词器

下一 Token 扩散

长序列处理能力

多语言原生支持

三大核心模型

VibeVoice-ASR-7B

60 分钟单次处理

自定义热词

丰富转录输出

VibeVoice-TTS-1.5B

90 分钟长文本生成

多说话人支持

富有表现力的语音

VibeVoice-Realtime-0.5B

0.5B 参数量

流式文本输入

长文本支持

核心技术架构

超低帧率分词

下一 Token 扩散框架

统一架构设计

Transformers 集成

最新动态

🚀 VibeVoice ASR 纳入 Transformers 正式版

📣 开源 VibeVoice-ASR

🎙️ 新增实验性语音角色

⚡ 开源 VibeVoice-Realtime-0.5B

🎤 开源 VibeVoice-TTS

风险与局限性

VibeVoice
开源前沿语音 AI