前言:
- 最近一直在研究文本转语音(TTS: Text To Speech)技术,接触到了fish-speech,但fish-speech情感控制不是很好用
- 刚好最近B站开源的indexTTS出了2,尝试一下
- 【indexTTS官网】
- 【indexTTS项目】
- 【indexTTS2效果演示】
- 【indexTTS2在线体验】
1 体验分享
-
在声音的还原度上,indexTTS2相当的好,第一次去去它的演示网站去使用时,我都惊呆了,竟然会这么还原,效果比fish-speech真的要好
-
而且indexTTS2有丰富的感情控制参数调整,发音感情调整起来真的方便非常多,而且效果很不错,这算是indexTTS2非常大的一个优点
-
indexTTS2效果好的代价就是推理的速度真的慢,跟fish-speech比真的要慢多了,即使时使用CUDA加速的情况下,还是慢,对电脑的性能要求较高
-
而且有些功能上没fish-speech好用,就例如fish-speech的发音调整,我觉得是一个很好用的功能,可惜indexTTS2没有
-
总结: indexTTS2并不是完全意义上的fish-speech的上位替代,算是各有春秋,但使用体验上,应该是indexTTS2更胜一筹
2 效果演示分享
- 因为indexTTS2最大的特点就是丰富的情感控制,这边也着重去演示语音情感
- 下面以鸣潮-今汐的音频来演示
文本 音频 一个人走虽然更快,一群人才能走得更远。未来的路,我会和大家,会和你一起走下去。
2.1 与音色参考音频相同
- 音色参考音频的情感是怎样的,生成音频情感也是怎样的
你和钱,对我都不重要。没有你,对我很重要。
音色参考音频 | 生成音频 |
---|---|
2.2 使用情感参考音频
- 在音色音频的基础上,额外再上传一个情感参考音频,来生成对应音色对应情感的音频
你给我翻译翻译,什么他妈的是他妈的惊喜
情感 | 情感参考音频 | 生成音频 |
---|---|---|
生气 | ||
伤心 |
2.3 使用情感向量控制
- 可以调整下方的情况变量来实现自己想要的效果,可以组合使用
酒要一口一口喝,步要一步一步走,步子迈大了,容易扯着蛋
情感向量 | 生成音频 |
---|---|
喜 0.6 | |
哀 0.6 |
2.4 使用情感描述文本控制
- 可以文字输入描述情感的文本来控制(实际体验下来不是很好用,容易情绪占比过重导致音色发生改变)
你带着老婆,出了城,吃着火锅还唱着歌,突然就被麻匪劫了
情感描述文本 | 生成音频 |
---|---|
非常生气 | |
非常伤心 |