分享5个ChatTTS的增强项目!

ChatTTS是一个通过文本合成语音的TTS项目,它最大的特点就是合成效果非常逼真自然。应该是目前最强的开源项目。这应该是大家的共识,所以很快就出现很多扩展项目。

这些扩展项目,使得ChatTTS在功能更加强大,便捷性大大提升。比如可以进行更多参数的控制,挖掘更多声音,优化数字发音,生成长文本语音,抽卡,分角色朗读…

下面整理了五个不错的项目,跟大家分享一下 !

Awesome-ChatTTS

这是一个导航类的项目,据说是官方推荐的ChatTTS 最佳入门指南,整理和汇总了常见问题和相关资源。这个项目主页上不光有导航,还有一个制作的好的WebIU,可以直接拿来使用。

这个网页版程序,在原项目的基础上做了如下优化:

  1. 使用国内模型下载代码方式,减少了可能出现的模型下载失败的问题。
  2. 抽离了更多参数,优化版 web-ui 中可以更加方便地进行调整。
  3. 添加了遗漏的需处理的中文标点字符,修复了生成的语音中可能出现的读出控制单元的问题。
  4. 增加了多音字的初步处理,主要是“得”和“地”,使生成的语音听起来更加自然流畅。
  5. 增加了长文本分段功能,分段处理后自动再合并为单个音频文件,避免了过长的文本生成效果失控的问题。
  6. 增加了 script.py 示例脚本,包含了常见问题中解决方案的说明 。

另一个同名的导航l类项目:

https://github.com/panyanyany/Awesome-ChatTTS

ChatTTS_Speaker

这个项目主要是关注“音色”,或者叫发声人。

用过官方项目的应该知道,默认情况下只有固定的一个声音或者随机的声音。这样用起来就非常局限。

这个项目挖掘了2000个声音,并对声音稳定性进行了打分,做了性别区分,可以在线试听,可以下载PT文件,一个PT文件对应一种音色。

使用这个项目,你就瞬间多了2K的配音人员。

ChatTTS-ui

一个简单的本地网页界面,通过网页使用 ChatTTS,将文字合成为语音,支持中英文、数字混杂,并提供API接口。

其中有一个叫数字混杂的功能很实用,比如遇到如下面这些内容的时候,很多语音合成都会懵逼。

我有12879651325.68元钱[laughlllaughl,占全部幻想的56.2%,我的手机号码是12312345678,[laugh]座机是0532-84752563,现在是2013-5-1,12:14:13 计算1+2=3,[uv_breakj[uv_breakj6*7=42

而这个项目合成的声音,可以用正确的发音读出这些数字。

这个项目还做了一个Windows的一键运行包。

ChatTTS_colab

基于 ChatTTS ,支持音色抽卡、长音频生成和分角色朗读。简单易用,无需复杂安装。

项目特点:

  • Colab 一键运行:无需复杂的环境配置,只需点击上方的 Colab 按钮,即可在浏览器中直接运行项目。
  • 音色抽卡功能:批量生成多个音色,并可保存自己喜欢的音色。
  • 支持生成长音频:适合生成较长的语音内容。
  • 字符处理:对数字和朗读错误的标点做了初步处理。
  • 分角色朗读功能 :支持对不同角色的文本进行分角色朗读,并支持大模型一键生产脚本。

这个项目提供了Colab和本地版,扩展功能较多,实用性较强!

ChatTTS-Forge

ChatTTS-Forge 是一个围绕 TTS 生成模型 ChatTTS 开发的项目,实现了 API Server 和 基于 Gradio 的 WebUI。

这个项目提供了多种使用方式:

在线体验部署于 HuggingFace 中HuggingFace Spaces
一键启动点击按钮,一键启动 Colab
容器部署查看 docker 部分Docker
本地部署查看环境准备部分本地部署

项目主页有非常详细的介绍!有兴趣的可以去一下。

我觉得不错的ChatTTS衍生项目都在这里了。这些项目使得这项技术的使用门槛降低了好多,功能也增加了好多。上手也简单了很多,一般来说大部分人都可以搞定。

如果需要对某个项目做更详细的介绍,做详细的教程,可以留言!

Tags:
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================