Featured image of post 【AI】faster-whisper字幕工具本地部署

【AI】faster-whisper字幕工具本地部署

|
|
|

将faster-whisper部署到本地,来生成音频对应的字幕

1 环境准备


2 faster-whisper安装

  • (1)前往 faster-whisper ,选择 tags ,下载对应的版本,这边以最新版本 v1.2.1 为例

  • (2)解压并打开文件夹,地址栏输入 cmd ,打开命令行,输入命令 pip install faster-whisper 进行安装


3 模型下载

  • (1)前往 【Hugging Face】 下载模型,推荐下载 faster-whisper-large-v3 ,效果最好

  • (2)将 .bin.json 文件下载,放到同一个文件夹下,文件夹路径随意


4 GPU推理加速(可选)

  • 需安装 CUDA 12cuDNN 9

  • 注意

    • CUDA安装需要看电脑支持的版本,若不支持安装12或11,只能放弃GPU加速
    • CUDA版本为11,或cuDNN版本为8,需对ctranslate2降级,使用指令pip install --force-reinstall ctranslate2==4.4.0
    • CUDA11 + cuDNN8 降级至 3.24.0
    • CUDA12 + cuDNN8 降级至 4.4.0

4.1 CUDA安装


4.2 cuDNN安装

  • (2)按照自己电脑实际情况,下载安装包

  • (3)安装默认下一步即可

5 运行

  • (1)新建后缀名 .py 的文件,复制下面内容进去,并按实际情况修改
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
from faster_whisper import WhisperModel

# 模型文件夹路径
model_size_or_path = "D:/Tools/faster-whisper-1.2.1/models/faster-whisper-large-v3"

# 以GPU形式运行
model = WhisperModel(model_size_or_path, device="cuda", compute_type="float16")

# 以CPU形式运行 (未安装CUDA选择此方式运行)
# model = WhisperModel(model_size_or_path, device="cpu", compute_type="int8")

# 音频文件路径按实际情况修改(目前是在py文件的当前文件夹下)
segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
  • (2)运行命令python xxx.py,来执行上面创建的py文件

6 效果演示

  • (1)歌曲转歌词
    • 有不准确的地方,但整体的准确率挺高,不准确的地方后期靠手动修正即可
歌曲信息 音频
徐洁儿 - 错误的相遇
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
C:\Users\letere\Desktop\py>python test.py
Detected language 'zh' with probability 0.992188
[0.00s -> 1.00s] 作词作曲 李宗盛
[1.00s -> 2.00s] 作词 李宗盛
[2.00s -> 16.00s] 作曲 李宗盛
[16.00s -> 23.00s] 睁开眼 我的天空 一片星海
[23.00s -> 31.00s] 还以为 这里就是 爱你的未来
[31.00s -> 38.00s] 为什么 黑暗之中 充满期待
[38.00s -> 46.00s] 却传来 更多沉默的无奈
[46.00s -> 53.00s] 忘不了 爱只剩下手心里的温度
[53.00s -> 60.00s] 爱知道 幸福只是短暂的幻影
[60.00s -> 63.00s] 我走在 迷雾花园里
[63.00s -> 67.00s] 寻找爱走过的记忆
[67.00s -> 75.00s] 半清醒 半迷醉 来去的痕迹
[75.00s -> 78.00s] 梦醒 突然发现
[78.00s -> 82.00s] 已经不是原来自己
[82.00s -> 89.00s] 一颗星途 留下 错误的相遇
[89.00s -> 92.00s] 落花又移 泪水太无情
[92.00s -> 96.00s] 又远相遇 擦身又分离
[96.00s -> 100.00s] 琴声悠悠 辗转到天里
[100.00s -> 104.00s] 最爱的人 你在哪里
[112.00s -> 121.00s] 你还在哪里
[121.00s -> 128.00s] 为什么 黑暗之中 充满期待
[128.00s -> 135.00s] 却传来 更多沉默的无奈
[135.00s -> 141.00s] 忘不了 爱只剩下手心里的温度
[142.00s -> 150.00s] 才知道 幸福只是短暂的幻影
[150.00s -> 153.00s] 我走在 迷雾花园里
[153.00s -> 157.00s] 寻找爱走过的记忆
[157.00s -> 165.00s] 半清醒 半迷醉 来去的痕迹
[165.00s -> 168.00s] 梦醒 突然发现
[168.00s -> 171.00s] 已经不是原来自己
[172.00s -> 180.00s] 一颗星途 留下 错误的相遇
[180.00s -> 183.00s] 我走在 迷雾花园里
[183.00s -> 187.00s] 寻找爱走过的记忆
[187.00s -> 195.00s] 半清醒 半迷醉 来去的痕迹
[195.00s -> 198.00s] 梦醒 突然发现
[198.00s -> 201.00s] 已经不是原来自己
[202.00s -> 209.00s] 一颗星途 留下 错误的相遇
[209.00s -> 213.00s] 落花有意 留谁太无情
[213.00s -> 216.00s] 永远相遇 擦身又分离
[216.00s -> 220.00s] 琴声悠悠 辗转到天明
[220.00s -> 224.00s] 最爱的人 留在哪里
[224.00s -> 227.00s] 落花有意 留谁太无情
[227.00s -> 230.00s] 最爱的人
[230.00s -> 236.00s] 你在哪里
根据CC BY-NC-SA 4.0协议授权
使用 Hugo 构建
主题 StackJimmy 设计