Featured image of post 【AI】fish-speech文本转语音项目本地部署

【AI】fish-speech文本转语音项目本地部署

|
|
|

记录如何在windows部署fish-speech项目



1 环境准备

1.1 conda安装

  • (1)下载conda,conda有多个版本,具体版本可以按需下载,这边演示下载miniconda

  • (2)下载后,除了安装路径按需选择外,其余一路默认安装即可

  • (3)添加conda环境变量

  • (4)命令行敲conda -V,成功显示版本则安装成功


2 本地部署

2.1 安装

  • (1)下载fish-speech项目

  • (2)安装fish-speech(以conda形式),在解压的fish-speech项目文件夹敲一下命令
1
2
3
4
conda create -n fish-speech python=3.12
conda activate fish-speech

pip install -e .


2.2 推理

  • (2)创建fish-speech的访问令牌

  • (3)命令行敲huggingface-cli login,设置访问令牌

  • (4)命令行下载模型
    • huggingface-cli download fishaudio/openaudio-s1-mini --local-dir checkpoints/openaudio-s1-mini

  • (5)运行fish-speech
    • fish-speech运行有多种方式,这边推荐使用webui,界面简洁清晰,敲python -m tools.run_webui运行


3 推理加速

启动fish-speech会看到一个CUDA is not available, running on CPU.,因为运行在CPU,所以速度比较慢,因此我们需要安装一下CUDA

3.1 CUDA安装

  • (1)前往控制面板,检查CUDA是否已安装(已安装可跳过本内容)

  • (2)打开 NVIDIA Control Panel(英伟达控制面板) 的系统设置,查看支持的CUDA版本
    • 这边支持的是13.0.84之前的版本

  • (4)安装一律默认即可

  • (5)安装完成后,命令行敲击nvcc -V,检查是否安装成功


3.2 更换pytorch版本

  • (1)前往pytorch官网,查看适合自己cuda版本的pytorch,并敲对应的命令下载,更换版本


4 fish-speech使用

4.1 基础使用

  • (1)准备好一段音频,以及文本(下面以星穹铁道-三月七为例)
    • 照片当然不是现实,但如果有足够多的照片,是不是就能更接近现实一些呢?
  • (2)上传参考音频,填写参考文本

  • (3)输入想要的转换的文本,并点击生成


4.2 references使用

  • (1)在fish-speech主文件夹下创建references文件夹

  • (2)在references文件夹下创建音频文件夹,并把对应的音频,以及文本放入
    • 文本以.lab文件名存储

  • (3)在webui的Reference ID中填入对应的音频文件夹名,则可自动导入音频和文本,不用再次上传和填写了


4.3 发音调整

  • (1)以下面的文本为例
    • 你成功说服了我
  • (2)其中的的发音是shui4,如果调整为shuo1,可以用<|phoneme_start|>拼音<|phoneme_end|>来处理
    • 例:你成功<|phoneme_start|>shuo1<|phoneme_end|>服了我

4.4 情感语调调整

  • 可以在话语前,添加(标识)来控制这段话的情感or语调,具体可看官方文档
    • 自己实际使用下来感觉效果不是很明显

  • (1)没加标识:你竟然敢背叛我!我对你这么信任,你就是这样回报我的吗?
  • (2)加了标识:(愤怒)你竟然敢背叛我!(语气激动)我对你这么信任,(大声)你就是这样回报我的吗?

根据CC BY-NC-SA 4.0协议授权
使用 Hugo 构建
主题 StackJimmy 设计