1 环境准备
1.1 conda安装
- (1)下载conda,conda有多个版本,具体版本可以按需下载,这边演示下载miniconda
-
(2)下载后,除了安装路径按需选择外,其余一路默认安装即可
-
(3)添加conda环境变量
- (4)命令行敲
conda -V
,成功显示版本则安装成功
2 本地部署
- fish-speech项目
- fish-speech部署文档
- 以下内容根据官方文件进行编写,若内容失效,请根据官方最新文档进行部署
2.1 安装
- (1)下载fish-speech项目
- (2)安装fish-speech(以conda形式),在解压的fish-speech项目文件夹敲一下命令
|
|
2.2 推理
- (1)前往huggingface官网获取fish-speech模型的访问权限
- 模型可能会更新,具体最新模型看官方文档
- (2)创建fish-speech的访问令牌
- (3)命令行敲
huggingface-cli login
,设置访问令牌
- (4)命令行下载模型
huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini
- (5)运行fish-speech
- fish-speech运行有多种方式,这边推荐使用webui,界面简洁清晰,敲
python -m tools.run_webui
运行
- fish-speech运行有多种方式,这边推荐使用webui,界面简洁清晰,敲
3 推理加速
启动fish-speech会看到一个
CUDA is not available, running on CPU.
,因为运行在CPU,所以速度比较慢,因此我们需要安装一下CUDA
3.1 CUDA安装
- (1)前往控制面板,检查CUDA是否已安装(已安装可跳过本内容)
- (2)打开 NVIDIA Control Panel(英伟达控制面板) 的系统设置,查看支持的CUDA版本
- 这边支持的是13.0.84之前的版本
- (3)前往英伟达官网下载适合自己电脑版本的CUDA
- (4)安装一律默认即可
- (5)安装完成后,命令行敲击
nvcc -V
,检查是否安装成功
3.2 更换pytorch版本
- (1)前往pytorch官网,查看适合自己cuda版本的pytorch,并敲对应的命令下载,更换版本
4 fish-speech使用
4.1 基础使用
- (1)准备好一段音频,以及文本(下面以星穹铁道-三月七为例)
照片当然不是现实,但如果有足够多的照片,是不是就能更接近现实一些呢?
- (2)上传参考音频,填写参考文本
- (3)输入想要的转换的文本,并点击生成
4.2 references使用
- (1)在fish-speech主文件夹下创建
references
文件夹
- (2)在references文件夹下创建音频文件夹,并把对应的音频,以及文本放入
- 文本以
.lab
文件名存储
- 文本以
- (3)在webui的
Reference ID
中填入对应的音频文件夹名,则可自动导入音频和文本,不用再次上传和填写了
4.3 发音调整
- (1)以下面的文本为例
你成功说服了我
- (2)其中的说的发音是
shui4
,如果调整为shuo1
,可以用<|phoneme_start|>拼音<|phoneme_end|>
来处理- 例:
你成功<|phoneme_start|>shuo1<|phoneme_end|>服了我
- 例:
4.4 情感语调调整
- 可以在话语前,添加
(标识)
来控制这段话的情感or语调,具体可看官方文档- 自己实际使用下来感觉效果不是很明显
- (1)没加标识:
你竟然敢背叛我!我对你这么信任,你就是这样回报我的吗?
- (2)加了标识:
(愤怒)你竟然敢背叛我!(语气激动)我对你这么信任,(大声)你就是这样回报我的吗?