AI变声器
基础概念
TTS
首先是TTS,即Text To Speech,从文本直接合成语音。
语音朗读在智能手机时代之前就已经很普及了,早期并没有AI,现在在AI加持下已经非常自然。
应用最广的肯定是微软家的,云希几乎成为一众营销号的御用配音。
自己训练音色
自己训练音色来做tts,有GPT-SoVITS和MockingBird,都支持5秒语音即可学到音色。
变声器
一旦基于VITS(Variational Inference Transformer for Speech)的转换速度够快,就能实现实时变声。
GPT-SoVITS的作者花儿不哭还有另外一个项目:RVC变声器。
SVS
SVS,即Singing Voice Synthesis,是用于基于包括例如歌词、节奏、音高等信息的乐谱来生成虚拟歌声的技术。
比如之前介绍过的AI歌手中使用的DiffSinger就属于SVS。补一句,官方DiffSinger其实也有TTS版本:DiffSpeech。
大名鼎鼎的vocaloid也属于这类。
SVC
SVC,即Singing Voice Conversion,在保证歌唱内容的同时,将音色从输入源转换到目标音色,可理解为变声器。
比如使用so-vits的so-vits-svc,和使用diffusion的diff-svc。