分享文章
Voicebox 完全本地运行的语音克隆工具
Voicebox 是一款本地优先的语音克隆工作室,定位是 ElevenLabs 的免费开源替代品。它最大的特点是所有处理都在本地完成,不需要联网,你的音频数据不会上传到任何地方。

主要功能包括:
• 用几秒钟的音频克隆声音• 将文本转换成自然语音• 多音轨时间线编辑(类似专业音频软件)• 应用内录音和自动转录
GitHub 地址:https://github.com/jamiepine/voicebox
核心功能体验
1. 声音克隆
这是我最常用的功能。上传一段 5-10 秒的音频,AI 就能学习声音特征。我试了一段自己说话的录音,克隆出来的声音确实能听出是我的音色,语调和节奏也比较自然。
支持的音频格式很宽松,甚至清唱一段也可以。当然,音频质量越好,克隆效果越接近原声。
2. 文本转语音
输入任意文字,选择克隆好的声音,就能生成语音。生成的语音不是那种干巴巴的朗读,会保留原声音的一些节奏感。
适合做有声书、视频配音、播客内容。我用来给几个短视频配音,省了不少事。
3. 多音轨编辑
这个功能有点超出预期。Voicebox 提供了一个时间线编辑界面,可以同时处理多个语音片段,调整位置、裁剪、混音,做复杂的对话场景也没问题。
对于需要做多人对话或有背景音的项目,这个编辑器很实用。
4. 完全本地运行
这一点对我来说很重要。所有模型和语音数据都留在本地:
• 不用担心隐私泄露• 不需要稳定的网络连接• 生成速度快(Apple Silicon 上用了 MLX 加速,推理速度快 4-5 倍)
安装和使用
系统要求
• Windows:Windows 10/11,推荐带 CUDA 的 NVIDIA 显卡• macOS:Apple Silicon 或 Intel 芯片• Linux:即将支持(目前因技术限制暂不可用)
安装步骤
1. 从 GitHub Releases 下载对应系统的安装包:https://github.com/jamiepine/voicebox/releases2. 运行安装程序3. 首次启动时会自动下载语音模型(约 1-2GB,耐心等待)4. 准备一段 5-10 秒的音频样本5. 在应用中上传音频创建声音配置6. 输入要转换的文本,生成语音
整个过程不需要配置 Python 环境,也不需要敲命令行,对普通用户比较友好。
实际使用感受
做得好的地方
• 真正免费开源:MIT 协议,代码完全开放,没有隐藏收费
• 隐私保护好:本地运行,数据不上云
• 功能完整:从克隆到编辑一站式完成• 生成质量可接受:比早期 TTS 工具自然很多
• 跨平台:Windows 和 Mac 都能用
需要注意的地方
• 首次模型下载较大:1-2GB 的模型文件,网络不好要等一会儿
• 对硬件有要求:虽然 CPU 也能跑,但有 NVIDIA 显卡或 Apple Silicon 体验会更好
• 克隆效果依赖样本质量:环境噪音大或音质差的音频,克隆出来效果也一般
• 中文支持:基于 Qwen3-TTS,中文效果还可以,但某些语调可能不如英文自然
适用场景
• 视频创作者:快速生成配音,不用自己反复录
• 播客制作:多音轨编辑适合做对话类内容
• 有声书/朗读:长文本转语音,批量生成
• 内容实验:测试不同声音风格,探索创意
总结
Voicebox 是一款真正可用的开源语音克隆工具。它把原本需要专业软件和云端服务才能实现的语音克隆功能,做成了普通人也能上手的本地应用。
如果你需要一款免费、本地运行、隐私安全的语音克隆工具,Voicebox 值得一试。当然,别指望它能 100% 还原真人声音,但作为辅助工具,已经能省不少事了。
获取方式
GitHub 开源地址:https://github.com/jamiepine/voicebox下载地址:https://github.com/jamiepine/voicebox/releases支持平台:Windows、macOS(Linux 即将推出)许可证:MIT License(完全免费开源)

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/







kuhuhu
关注网络尖刀微信公众号
