本地部署解压直接运行 无广告纯绿色

MaskGCT是由趣丸科技(FunnyAI)与香港中文大学(深圳)联合研发的开源语音大模型,基于掩码生成编解码器 Transformer(Masked Generative Codec Transformer) 技术构建。其官方数据格式设计围绕多语言语音合成、声音克隆及语音控制等核心能力,结合非自回归生成范式与语音表征解耦编码技术,实现高效且高质量的语音生成。以下是关键数据格式与技术要点的系统梳理:


⚙️核心架构与处理流程

MaskGCT采用两阶段生成流程,通过解耦语义与声学表示提升可控性与效率:

  1. 文本 → 语义标记(Text-to-Semantic)

    • 输入:文本序列(UTF-8编码,支持中、英、日、韩、法、德6种语言)16

    • 输出:语义标记序列,源自语音自监督模型(SSL)的离散化表示(如W2v-BERT 2.0第17层特征)58

    • 技术:非自回归掩码Transformer,随机掩码部分标记并基于上下文预测,无需音素对齐25

  2. 语义标记 → 声学标记(Semantic-to-Acoustic)

    • 输入:语义标记序列。

    • 输出:多层声学标记(12层残差向量量化/RVQ),用于重建波形58

    • 编解码器:

      • 语义编解码器:VQ-VAE模型,最小化信息损失5

      • 声学编解码器:Vocos架构,支持24kHz采样率波形重建58


📥输入/输出格式规范

输入格式:

  • 文本输入:UTF-8字符串,支持多语言混合文本16

  • 参考语音(克隆/编辑场景):

    • 格式:PCM/WAV(24kHz采样率)5

    • 时长:≥3秒(推荐5秒)47

    • 内容:需包含目标音色、韵律或情感特征2

输出格式:

  • 语音波形:24kHz采样率WAV文件5

  • 可控参数

    • 时长(总长度因子0.8–1.2)5

    • 语速(词/分钟)、情感标签(如开心/悲伤)12

    • 跨语言转换(保留原音色生成目标语言语音)6


🧩内部数据表示格式

组件 数据表示 技术实现
语义标记 离散ID序列(VQ-VAE量化) 基于W2v-BERT 2.0特征训练,减少音调语言信息损失58
声学标记 12层RVQ(残差向量量化)标记 多层结构保留高频细节;Vocos解码器高效重建波形58
掩码预测序列 动态掩码位置标记(训练时随机掩码,推理时按需生成) 双向Transformer+自适应RMSNorm58

🧠模型部署与规格

预训练模型版本(Hugging Face开源)56

版本 参数量 支持任务 下载地址
Base 300M 基础TTS、语音克隆 amphion/maskgct-base
Large 700M 跨语言合成、情感控制 amphion/maskgct-large
X-Large 1.3B 高保真影视配音、唇音同步 amphion/maskgct-xlarge
 

📚训练数据基础

  • 数据集:Emilia(10万小时多语言语音)34

    • 语言:中、英、日、韩、法、德。

    • 内容:涵盖朗读、对话、情感语音等场景。

    • 质量:人工筛选高保真样本,信噪比>30dB46

  • 预处理

    1. 语音分段(静音切除+VAD)。

    2. 文本标准化(数字/符号转写)5


⚡推理配置参数

参数 范围 功能
temperature 0.2–1.0 控制生成多样性(低→稳定;高→创意)
top_p 0.8–0.95 核采样阈值,过滤低概率标记
length_factor 0.8–1.2 调整生成语音总时长
semantic_prefix 10–50标记 参考语音的语义前缀(克隆场景关键)5

💡应用场景与数据流示例

  • 短剧出海(趣丸千音平台)47
    输入视频 → 分离音频 → 文本翻译 → MaskGCT生成目标语言语音 → 唇音同步合成。

  • 声音克隆
    参考音频(5s)→ 提取语义标记 → 生成新文本对应语音(保留音色/情感)

导演剪辑未删减
 
 
 
导演:史蒂文·斯皮尔伯格
编剧:塞克·潘 / 恩斯特·克莱恩
主演:泰伊·谢里丹 / 奥利维亚·库克 / 本·门德尔森 / 马克·里朗斯 / 丽娜·维特 / 森崎温 / 赵家正 / 西蒙·佩吉 / T·J·米勒 / 汉娜·乔恩-卡门 / 拉尔夫·伊内森 / 苏珊·林奇 / 克莱尔·希金斯 / 劳伦斯·斯佩尔曼 / 佩蒂塔·维克斯 / 展开…
类型:科幻 / 动作 / 冒险
地区:美国
语言:英语 / 日语 / 国语
上映:2018-03-30(中国大陆) / 2018-03-11(西南偏南电影节) / 2018-03-29(美国)
片长:140分钟
又名:玩家一号 / 挑战者1号(港) / 一级玩家(台) / 一号玩家
 
 
 
 
 
 
 
 
 
电影简介 :
故事发生在2045年,虚拟现实技术已经渗透到了人类生活的每一个角落。詹姆斯哈利迪(马克·里朗斯 Mark Rylance 饰)一手建造了名为“绿洲”的虚拟现实游戏世界,临终前,他宣布自己在游戏中设置了一个彩蛋,找到这枚彩蛋的人即可成为绿洲的继承人。要找到这枚彩蛋,必须先获得三把钥匙,而寻找钥匙的线索就隐藏在詹姆斯的过往之中。 韦德(泰尔·谢里丹 Tye Sheridan 饰)、艾奇(丽娜·维特 Lena Waithe 饰)、大东(森崎温 饰)和修(赵家正 饰)是游戏中的好友,和之后遇见的阿尔忒弥斯(奥利维亚·库克 Olivia Cooke 饰)一起,五人踏上了寻找彩蛋的征程。他们所要对抗的,是名为诺兰索伦托(本·门德尔森 Ben Mendelsohn 饰)的大资本家。
导演剪辑未删减

 

导演克里斯托弗·诺兰
编剧乔纳森·诺兰 / 克里斯托弗·诺兰
主演马修·麦康纳 / 安妮·海瑟薇 / 杰西卡·查斯坦 / 麦肯吉·弗依 / 卡西·阿弗莱克 / 更多…
类型: 剧情 / 科幻 / 冒险
制片国家/地区: 美国 / 英国 / 加拿大
语言: 英语
上映日期: 2014-11-12(中国大陆) / 2020-08-02(中国大陆重映) / 2014-11-07(美国)
片长: 169分钟
又名: 星际启示录(港) / 星际效应(台) / 星际空间 / 星际之间 / 星际远航 / 星际 / Flora’s Letter
IMDb: tt0816692

 

 

星际穿越的剧情简介 · · · · · ·

 

导演剪辑未删减
 
 
 
导演尼尔·布洛姆坎普
编剧尼尔·布洛姆坎普
主演马特·达蒙 / 朱迪·福斯特 / 沙尔托·科普雷 / 艾莉丝·布拉加 / 迭戈·卢纳 / 更多…
类型: 剧情 / 动作 / 科幻
官方网站: www.itsbetterupthere.com
制片国家/地区: 美国
语言: 英语 / 法语 / 西班牙语 / 南非语
上映日期: 2013-09-05(中国大陆) / 2013-08-09(美国)
片长: 109分钟
又名: 极乐帝国2154(港) / 极乐世界(台) / 极乐园
IMDb: tt1535108
 
 
 
 
 
 
 
 
 

极乐空间的剧情简介 · · · · · ·

导演剪辑未删减
 
 
 
导演亚历克斯·加兰
编剧亚历克斯·加兰 / 杰夫·范德米尔
主演娜塔莉·波特曼 / 詹妮弗·杰森·李 / 吉娜·罗德里格兹 / 泰莎·汤普森 / 奥斯卡·伊萨克 / 更多…
类型: 剧情 / 科幻 / 惊悚
制片国家/地区: 美国 / 英国
语言: 英语
上映日期: 2018-04-13(中国大陆) / 2018-02-23(美国)
片长: 115分钟 / 114分钟(中国大陆)
又名: 灭。境(港) / 灭绝(台) / 遗落的南境1:湮灭
IMDb: tt2798920
 
 
 
 
 
 
 
 
 

湮灭的剧情简介 · · · · · ·

宝贝的使命/就是被你带走——扫码完成它的使命!
生活不将就,扫码选对味——您一码之力,解锁世界精彩;你的支持让创意永续助力你的每一步!
百年中医      
美容  减肥  护肤 升发  
美食  旅游  生活  正能量
元宇宙    AI应用  大模型
情感   恋爱    养生