Maya1 – Maya Research团队开源的语音合成模型

智能 PRO 稿源：AI工具集 2025-11-09 02:19

Maya1是什么

Maya1 是 Maya Research 团队推出的开源AI语音合成模型，专为生成富有情感的语音而设计。模型通过自然语言描述来设计声音，支持 20 多种情绪表达，如大笑、哭泣、叹气等，能实时流式传输音频。模型基于 30 亿参数的 Transformer 架构，基于 SNAC 神经编解码器，音频输出为 24kHz，质量高且延迟低。适用于游戏配音、播客制作、语音助手开发等多种场景，让 AI 声音更具人性化和表现力。

Maya1的主要功能

自然语言声音设计：用户能通过简单的自然语言描述（如“30岁美国女性，声音温柔，语气真诚”）定义声音特征，无需复杂的参数调整。
丰富的情绪表达：支持 20 多种情绪，如大笑（laugh）、哭泣（cry）、叹气（sigh）等，能通过文本中的情绪标签（如 <laugh>）精准控制情绪表达。
实时流式传输：采用 SNAC 神经编解码器，支持低延迟（约 100 毫秒）的实时音频生成，适用语音助手、游戏对话等需要即时反馈的场景。
高效部署：基于 30 亿参数的轻量级 Transformer 架构，单 GPU 即可运行，支持 vLLM 推理框架，适合高并发场景。

Maya1的技术原理

架构：Maya1 基于 30 亿参数的 Transformer（类似 Llama）架构，用在生成 SNAC 编解码器的音频 token 序列，不是直接生成波形。
SNAC 编解码器：通过多尺度分层压缩（约 12Hz/23Hz/47Hz），将音频高效编码为 7-token 帧，实现低码率（约 0.98kbps）的高质量音频输出。
训练过程：预训练用大规模英文语音数据，涵盖多种口音和语速。基于录音棚级语音样本，标注 20 多种情绪和身份标签。
声音描述：采用 XML 属性式自然语言描述（如 <description="...">），避免模型将描述内容“念”出来。
推理优化：支持 vLLM 引擎集成，结合自动前缀缓存（APC）机制，显著降低重复生成的计算成本，同时兼容 WebAudio 环形缓冲，便于浏览器端实时播放。