AI变声器

发表于 2023-03-21 更新于 2024-02-27 阅读次数：

之前写过一篇AI歌手，现在有另一种实现方式。

基础概念

首先是TTS，即Text To Speech，从文本直接合成语音。

语音朗读在智能手机时代之前就已经很普及了，早期并没有AI，现在在AI加持下已经非常自然。

应用最广的肯定是微软家的，云希几乎成为一众营销号的御用配音。

自己训练音色

自己训练音色来做tts，有GPT-SoVITS和MockingBird，都支持5秒语音即可学到音色。

一旦基于VITS（Variational Inference Transformer for Speech）的转换速度够快，就能实现实时变声。

GPT-SoVITS的作者花儿不哭还有另外一个项目：RVC变声器。

SVS，即Singing Voice Synthesis，是用于基于包括例如歌词、节奏、音高等信息的乐谱来生成虚拟歌声的技术。

比如之前介绍过的AI歌手中使用的DiffSinger就属于SVS。补一句，官方DiffSinger其实也有TTS版本：DiffSpeech。

大名鼎鼎的vocaloid也属于这类。

SVC，即Singing Voice Conversion，在保证歌唱内容的同时，将音色从输入源转换到目标音色，可理解为变声器。

比如使用so-vits的so-vits-svc，和使用diffusion的diff-svc。