【AI】faster-whisper字幕工具本地部署

【faster-whisper】

1 环境准备

Python安装：
- 【Python】Windows搭建Python环境
- 注意： 目前需python版本 3.9 以上，具体可看官方文档

2 faster-whisper安装

（1）前往 faster-whisper ，选择 tags ，下载对应的版本，这边以最新版本 v1.2.1 为例

（2）解压并打开文件夹，地址栏输入 cmd ，打开命令行，输入命令 pip install faster-whisper 进行安装

3 模型下载

（1）前往 【Hugging Face】 下载模型，推荐下载 faster-whisper-large-v3 ，效果最好

（2）将 .bin ，.json 文件下载，放到同一个文件夹下，文件夹路径随意

4 GPU推理加速（可选）

需安装 CUDA 12 ， cuDNN 9

注意：

CUDA安装需要看电脑支持的版本，若不支持安装12或11，只能放弃GPU加速

CUDA版本为11，或cuDNN版本为8，需对ctranslate2降级，使用指令pip install --force-reinstall ctranslate2==4.4.0

CUDA11 + cuDNN8 降级至 3.24.0

CUDA12 + cuDNN8 降级至 4.4.0

4.1 CUDA安装

具体看 【推理加速】

4.2 cuDNN安装

（1）前往 【cuDNN Archive】，选择版本

（2）按照自己电脑实际情况，下载安装包

（3）安装默认下一步即可

5 运行

（1）新建后缀名 .py 的文件，复制下面内容进去，并按实际情况修改

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18


from faster_whisper import WhisperModel

# 模型文件夹路径
model_size_or_path = "D:/Tools/faster-whisper-1.2.1/models/faster-whisper-large-v3"

# 以GPU形式运行
model = WhisperModel(model_size_or_path, device="cuda", compute_type="float16")

# 以CPU形式运行 (未安装CUDA选择此方式运行)
# model = WhisperModel(model_size_or_path, device="cpu", compute_type="int8")

# 音频文件路径按实际情况修改(目前是在py文件的当前文件夹下)
segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

（2）运行命令python xxx.py，来执行上面创建的py文件

6 效果演示

（1）歌曲转歌词
- 有不准确的地方，但整体的准确率挺高，不准确的地方后期靠手动修正即可

歌曲信息	音频
徐洁儿 - 错误的相遇

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45


C:\Users\letere\Desktop\py>python test.py
Detected language 'zh' with probability 0.992188
[0.00s -> 1.00s] 作词作曲 李宗盛
[1.00s -> 2.00s] 作词 李宗盛
[2.00s -> 16.00s] 作曲 李宗盛
[16.00s -> 23.00s] 睁开眼 我的天空 一片星海
[23.00s -> 31.00s] 还以为 这里就是 爱你的未来
[31.00s -> 38.00s] 为什么 黑暗之中 充满期待
[38.00s -> 46.00s] 却传来 更多沉默的无奈
[46.00s -> 53.00s] 忘不了 爱只剩下手心里的温度
[53.00s -> 60.00s] 爱知道 幸福只是短暂的幻影
[60.00s -> 63.00s] 我走在 迷雾花园里
[63.00s -> 67.00s] 寻找爱走过的记忆
[67.00s -> 75.00s] 半清醒 半迷醉 来去的痕迹
[75.00s -> 78.00s] 梦醒 突然发现
[78.00s -> 82.00s] 已经不是原来自己
[82.00s -> 89.00s] 一颗星途 留下 错误的相遇
[89.00s -> 92.00s] 落花又移 泪水太无情
[92.00s -> 96.00s] 又远相遇 擦身又分离
[96.00s -> 100.00s] 琴声悠悠 辗转到天里
[100.00s -> 104.00s] 最爱的人 你在哪里
[112.00s -> 121.00s] 你还在哪里
[121.00s -> 128.00s] 为什么 黑暗之中 充满期待
[128.00s -> 135.00s] 却传来 更多沉默的无奈
[135.00s -> 141.00s] 忘不了 爱只剩下手心里的温度
[142.00s -> 150.00s] 才知道 幸福只是短暂的幻影
[150.00s -> 153.00s] 我走在 迷雾花园里
[153.00s -> 157.00s] 寻找爱走过的记忆
[157.00s -> 165.00s] 半清醒 半迷醉 来去的痕迹
[165.00s -> 168.00s] 梦醒 突然发现
[168.00s -> 171.00s] 已经不是原来自己
[172.00s -> 180.00s] 一颗星途 留下 错误的相遇
[180.00s -> 183.00s] 我走在 迷雾花园里
[183.00s -> 187.00s] 寻找爱走过的记忆
[187.00s -> 195.00s] 半清醒 半迷醉 来去的痕迹
[195.00s -> 198.00s] 梦醒 突然发现
[198.00s -> 201.00s] 已经不是原来自己
[202.00s -> 209.00s] 一颗星途 留下 错误的相遇
[209.00s -> 213.00s] 落花有意 留谁太无情
[213.00s -> 216.00s] 永远相遇 擦身又分离
[216.00s -> 220.00s] 琴声悠悠 辗转到天明
[220.00s -> 224.00s] 最爱的人 留在哪里
[224.00s -> 227.00s] 落花有意 留谁太无情
[227.00s -> 230.00s] 最爱的人
[230.00s -> 236.00s] 你在哪里