AI变声器

基础概念

TTS

首先是TTS,即Text To Speech,从文本直接合成语音。

语音朗读在智能手机时代之前就已经很普及了,早期并没有AI,现在在AI加持下已经非常自然

应用最广的肯定是微软家的,云希几乎成为一众营销号的御用配音。

开源的有mozilla的coqui-ai的

自己训练音色

自己训练音色来做tts,有GPT-SoVITSMockingBird,都支持5秒语音即可学到音色。

变声器

一旦基于VITS(Variational Inference Transformer for Speech)的转换速度够快,就能实现实时变声。

GPT-SoVITS的作者花儿不哭还有另外一个项目:RVC变声器

SVS

SVS,即Singing Voice Synthesis,是用于基于包括例如歌词、节奏、音高等信息的乐谱来生成虚拟歌声的技术。

比如之前介绍过的AI歌手中使用的DiffSinger就属于SVS。补一句,官方DiffSinger其实也有TTS版本:DiffSpeech

大名鼎鼎的vocaloid也属于这类。

SVC

SVC,即Singing Voice Conversion,在保证歌唱内容的同时,将音色从输入源转换到目标音色,可理解为变声器。

比如使用so-vits的so-vits-svc,和使用diffusiondiff-svc