SAM Audio – Meta开源的音频分割模型

智能 PRO 稿源：AI工具集 2025-12-22 14:38

SAM Audio是什么

SAM Audio是Meta开源的音频分割模型，能通过文本、视觉和时间片段等多模态提示，从复杂的音频混合中分离出特定的声音。核心技术是Perception Encoder Audiovisual（PE-AV），基于Meta开源的Perception Encoder模型，能融合视听信息并进行精确的时间标注，实现高精度的音频分离。用户可以通过简单的文本描述（如“吉他声”）、在视频中点击发声物体，或者标记声音出现的时间范围来使用SAM Audio。

SAM Audio的主要功能

多模态提示音频分离：通过文本描述、视觉选择（视频中的对象）或时间片段标记，从复杂音频混合中分离出特定声音。
支持多种音频任务：能处理语音、音乐、通用音效等多种音频分离任务，适用于不同场景。
无参考音频评测：提供SAM Audio Judge，一种无需参考音频的客观评测模型，从感知层面评估音频分离质量。
真实环境基准测试：发布SAM Audio-Bench，首个真实环境的音频分离基准，覆盖多种音频领域和提示类型，支持无参考评估。
高效实时处理：运行速度快于实时处理，实时因子约为0.7，适合大规模音频处理。
助力无障碍技术：与相关机构合作，探索在无障碍技术中的应用，如助听器集成等，推动音频AI的包容性发展。

SAM Audio的技术原理

感知编码器视听模块（PE-AV）：基于Meta开源的Perception Encoder模型，PE-AV能提取逐帧视频特征并与音频表示对齐，融合视听信息，为音频分离提供精确的时间标注和语义丰富的特征表示。
流匹配扩散Transformer架构：采用生成式建模框架，将混合音频和提示信息编码为共享表示，生成目标音轨与剩余音轨，支持多种模态的提示输入。
大规模多模态数据训练：通过融合真实与合成的混合音频数据进行训练，涵盖语音、音乐和通用音效等多种声音事件，结合先进的音频合成策略，提升模型的鲁棒性和泛化能力。
无参考音频评测模型：SAM Audio Judge基于感知维度进行音频质量评估，无需参考音轨，提供更贴近人类听觉体验的客观评测标准。
真实环境基准测试：SAM Audio-Bench作为首个真实环境的音频分离基准，覆盖多种音频任务和模态提示，支持无参考评估，确保模型在实际应用中的有效性。