Como Funciona um modelo de Text-To-Speech (TTS)
00:00 Introdução
00:40 Pré-processamento
02:07 Mel-Spectrogram
04:02 Vocoder
04:44 Arquitetura
07:01 O que é MOS
08:55 Explicação e como usar modelos no Coqui-ai TTS
13:46 Explicação e como usar modelos no TTS-Portuguese-Corpus
15:06 Explicação e como usar Falatron
16:02 Encerramento
📚 Você já se perguntou como transformar texto em áudio? A resposta está nos avanços dos modelos de síntese de fala baseados em inteligência artificial. Neste vídeo iremos explorar as etapas-chave desse processo, passando pelo pré-processamento, mel-spectrogram e vocoder para realizar a geração de voz, além de outras técnicas que estão sendo usadas para atingir resultados ainda melhores. Explorando o funcionamento dos principais modelos atuais como o Tacotron2, Glow-TTS, HiFi-GAN e VITS.
🔊 Mas vamos além da teoria! Também iremos ver como colocar tudo em prática. Vamos explorar alguns repositórios que possuem modelos em português e como podemos utilizá-los, permitindo que você experimente e crie suas próprias sínteses de fala. Exploraremos ferramentas e bibliotecas populares, como Coqui TTS e Falatron.
🌐 Referências:
▶ Survey de text-to-speech - https://www.cfilt.iitb.ac.in/resource...
▶ Paper do Tacotron 2 - https://arxiv.org/abs/1712.05884
▶ Paper do Glow-TTS - https://arxiv.org/abs/2005.11129
▶ Paper do MelGAN - https://arxiv.org/abs/1910.06711
▶ Paper do HiFi-GAN - https://arxiv.org/abs/2010.05646
▶ Paper do VITS - https://arxiv.org/abs/2106.06103
▶ Paper do VQTTS - https://arxiv.org/abs/2204.00768
▶ Paper do FreeVC -https://arxiv.org/abs/2210.15418
▶ Entender mel-spectrogram - / understanding-the-mel-spectrogram
▶ Entender mel-spectrogram - / urban-environmental-audio-classification-u...
▶ Github Coqui-ai TTS - https://github.com/coqui-ai/TTS
▶ Github dataset e modelo em português - https://github.com/Edresson/TTS-Portu...
▶ Site conversor de texto para áudio com vozes famosas - https://falatron.com
▶ Github conversor de fonemas usado pelo VITS - https://github.com/bootphon/phonemizer
#TextToSpeech #MelSpectrogram #Vocoder #ArquiteturaTTS #ProgramadoArficial