MMAudio

本地部署解压直接运行无广告纯绿色

1. 架构设计

多流融合框架：音频特征 → 视觉动作 → 文本描述三重对齐
模态桥接层：CNN+Transformer 跨模态注意力机制

2. 核心能力

| 模块          | 功能                     | 支持格式          |
|---------------|--------------------------|------------------|
| Audio2Gesture | 音乐驱动3D人体舞蹈       | MP3/WAV + BVH    |
| Audio2Caption | 音频场景描述生成         | 环境声/语音      |
| Audio2Face    | 语音驱动口型同步         | 16kHz+单声道     |