MaskGCT

本地部署解压直接运行无广告纯绿色

MaskGCT是由趣丸科技（FunnyAI）与香港中文大学（深圳）联合研发的开源语音大模型，基于掩码生成编解码器 Transformer（Masked Generative Codec Transformer） 技术构建。其官方数据格式设计围绕多语言语音合成、声音克隆及语音控制等核心能力，结合非自回归生成范式与语音表征解耦编码技术，实现高效且高质量的语音生成。以下是关键数据格式与技术要点的系统梳理：

⚙️核心架构与处理流程

MaskGCT采用两阶段生成流程，通过解耦语义与声学表示提升可控性与效率：

文本 → 语义标记（Text-to-Semantic）
- 输入：文本序列（UTF-8编码，支持中、英、日、韩、法、德6种语言）16。
- 输出：语义标记序列，源自语音自监督模型（SSL）的离散化表示（如W2v-BERT 2.0第17层特征）58。
- 技术：非自回归掩码Transformer，随机掩码部分标记并基于上下文预测，无需音素对齐25。
语义标记 → 声学标记（Semantic-to-Acoustic）
- 输入：语义标记序列。
- 输出：多层声学标记（12层残差向量量化/RVQ），用于重建波形58。
- 编解码器：
  - 语义编解码器：VQ-VAE模型，最小化信息损失5。
  - 声学编解码器：Vocos架构，支持24kHz采样率波形重建58。

📥输入/输出格式规范

输入格式：

文本输入：UTF-8字符串，支持多语言混合文本16。
参考语音（克隆/编辑场景）：
- 格式：PCM/WAV（24kHz采样率）5。
- 时长：≥3秒（推荐5秒）47。
- 内容：需包含目标音色、韵律或情感特征2。

输出格式：

语音波形：24kHz采样率WAV文件5。
可控参数：
- 时长（总长度因子0.8–1.2）5。
- 语速（词/分钟）、情感标签（如开心/悲伤）12。
- 跨语言转换（保留原音色生成目标语言语音）6。

🧩内部数据表示格式

组件	数据表示	技术实现
语义标记	离散ID序列（VQ-VAE量化）	基于W2v-BERT 2.0特征训练，减少音调语言信息损失58
声学标记	12层RVQ（残差向量量化）标记	多层结构保留高频细节；Vocos解码器高效重建波形58
掩码预测序列	动态掩码位置标记（训练时随机掩码，推理时按需生成）	双向Transformer+自适应RMSNorm58

🧠模型部署与规格

预训练模型版本（Hugging Face开源）56：

版本	参数量	支持任务	下载地址
Base	300M	基础TTS、语音克隆	amphion/maskgct-base
Large	700M	跨语言合成、情感控制	amphion/maskgct-large
X-Large	1.3B	高保真影视配音、唇音同步	amphion/maskgct-xlarge

📚训练数据基础

数据集：Emilia（10万小时多语言语音）34。
- 语言：中、英、日、韩、法、德。
- 内容：涵盖朗读、对话、情感语音等场景。
- 质量：人工筛选高保真样本，信噪比＞30dB46。
预处理：
1. 语音分段（静音切除+VAD）。
2. 文本标准化（数字/符号转写）5。

⚡推理配置参数

参数	范围	功能
`temperature`	0.2–1.0	控制生成多样性（低→稳定；高→创意）
`top_p`	0.8–0.95	核采样阈值，过滤低概率标记
`length_factor`	0.8–1.2	调整生成语音总时长
`semantic_prefix`	10–50标记	参考语音的语义前缀（克隆场景关键）5

💡应用场景与数据流示例

短剧出海（趣丸千音平台）47：
输入视频 → 分离音频 → 文本翻译 → MaskGCT生成目标语言语音 → 唇音同步合成。
声音克隆：
参考音频（5s）→ 提取语义标记 → 生成新文本对应语音（保留音色/情感）