Featured image of post 【AI】B站开源IndexTTS2使用体验报告

【AI】B站开源IndexTTS2使用体验报告

|
|
|

分享B站开源的文本转语音项目IndexTTS2的使用感想


前言:


1 体验分享

  • 声音的还原度上,indexTTS2相当的好,第一次去去它的演示网站去使用时,我都惊呆了,竟然会这么还原,效果比fish-speech真的要好

  • 而且indexTTS2有丰富的感情控制参数调整,发音感情调整起来真的方便非常多,而且效果很不错,这算是indexTTS2非常大的一个优点

  • indexTTS2效果好的代价就是推理的速度真的慢,跟fish-speech比真的要慢多了,即使时使用CUDA加速的情况下,还是慢,对电脑的性能要求较高

  • 而且有些功能上没fish-speech好用,就例如fish-speech的发音调整,我觉得是一个很好用的功能,可惜indexTTS2没有

  • 总结: indexTTS2并不是完全意义上的fish-speech的上位替代,算是各有春秋,但使用体验上,应该是indexTTS2更胜一筹


2 效果演示分享

  • 因为indexTTS2最大的特点就是丰富的情感控制,这边也着重去演示语音情感
  • 下面以鸣潮-今汐的音频来演示
文本 音频
一个人走虽然更快,一群人才能走得更远。未来的路,我会和大家,会和你一起走下去。

2.1 与音色参考音频相同

  • 音色参考音频的情感是怎样的,生成音频情感也是怎样的
    • 你和钱,对我都不重要。没有你,对我很重要。
音色参考音频 生成音频

2.2 使用情感参考音频

  • 在音色音频的基础上,额外再上传一个情感参考音频,来生成对应音色对应情感的音频
    • 你给我翻译翻译,什么他妈的是他妈的惊喜
情感 情感参考音频 生成音频
生气
伤心

2.3 使用情感向量控制

  • 可以调整下方的情况变量来实现自己想要的效果,可以组合使用
    • 酒要一口一口喝,步要一步一步走,步子迈大了,容易扯着蛋
情感向量 生成音频
喜 0.6
哀 0.6

2.4 使用情感描述文本控制

  • 可以文字输入描述情感的文本来控制(实际体验下来不是很好用,容易情绪占比过重导致音色发生改变
    • 你带着老婆,出了城,吃着火锅还唱着歌,突然就被麻匪劫了
情感描述文本 生成音频
非常生气
非常伤心

根据CC BY-NC-SA 4.0协议授权
使用 Hugo 构建
主题 StackJimmy 设计