🤔

莱特雷-letere

欢迎来到我的网站，此博客由【Hugo + Stack】来进行搭建，主要分享个人生活和学习笔记

【AI】B站开源IndexTTS2使用体验报告

分享B站开源的文本转语音项目IndexTTS2的使用感想

学习笔记

AI

前言：

最近一直在研究文本转语音（TTS: Text To Speech）技术，接触到了fish-speech，但fish-speech情感控制不是很好用

刚好最近B站开源的indexTTS出了2，尝试一下

【indexTTS官网】

【indexTTS项目】

【indexTTS2效果演示】

【indexTTS2在线体验】

1 体验分享

在声音的还原度上，indexTTS2相当的好，第一次去去它的演示网站去使用时，我都惊呆了，竟然会这么还原，效果比fish-speech真的要好
而且indexTTS2有丰富的感情控制参数调整，发音感情调整起来真的方便非常多，而且效果很不错，这算是indexTTS2非常大的一个优点
indexTTS2效果好的代价就是推理的速度真的慢，跟fish-speech比真的要慢多了，即使时使用CUDA加速的情况下，还是慢，对电脑的性能要求较高
而且有些功能上没fish-speech好用，就例如fish-speech的发音调整，我觉得是一个很好用的功能，可惜indexTTS2没有
总结： indexTTS2并不是完全意义上的fish-speech的上位替代，算是各有春秋，但使用体验上，应该是indexTTS2更胜一筹

2 效果演示分享

因为indexTTS2最大的特点就是丰富的情感控制，这边也着重去演示语音情感

下面以鸣潮-今汐的音频来演示

文本音频

一个人走虽然更快，一群人才能走得更远。未来的路，我会和大家，会和你一起走下去。

2.1 与音色参考音频相同

音色参考音频的情感是怎样的，生成音频情感也是怎样的
- 你和钱，对我都不重要。没有你，对我很重要。

音色参考音频	生成音频

2.2 使用情感参考音频

在音色音频的基础上，额外再上传一个情感参考音频，来生成对应音色对应情感的音频
- 你给我翻译翻译，什么他妈的是他妈的惊喜

情感	情感参考音频	生成音频
生气

伤心

2.3 使用情感向量控制

可以调整下方的情况变量来实现自己想要的效果，可以组合使用
- 酒要一口一口喝，步要一步一步走，步子迈大了，容易扯着蛋

情感向量	生成音频
喜 0.6

哀 0.6

2.4 使用情感描述文本控制

可以文字输入描述情感的文本来控制（实际体验下来不是很好用，容易情绪占比过重导致音色发生改变）
- 你带着老婆，出了城，吃着火锅还唱着歌，突然就被麻匪劫了

情感描述文本	生成音频
非常生气

非常伤心