Como Treinar VITS para Transforma Texto em Áudio

Опубликовано: 16 Май 2026
на канале: Programador Artificial
1,479
54

Como Treinar VITS para Transforma Texto em Áudio

00:00 Introdução
00:37 Explicação do fluxo e arquitetura de treinamento do VITS
04:49 Explicação do fluxo e arquitetura de inferência do VITS
05:49 Preparação do ambiente de desenvolvimento
06:50 Configuração do Monotonic Align Search
07:27 Explicação do dataset utilizado e como organizá-lo
08:56 Análise e preparação do dataset
13:10 Pré-processamento do VITS nos dados
17:19 Configuração de hiperparâmetros e arquitetura
20:00 Treinamento e explicação da pasta de checkpoints
21:32 Como interpretar os resultados no Tensorboard
25:20 Como gerar áudio utilizando modelo treinado
27:15 Conclusão

🔍 Neste vídeo vamos estudar a arquitetura e todo o processo de treinamento do modelo VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech). Para entendermos como treinar um modelo para transformar texto em áudio (text-to-speech) utilizando um dataset customizado. Podendo criar narrações personalizadas, dublagens de vídeos, assistentes de voz e muito mais.

📚 Vamos começar conhecendo os principais componentes da arquitetura VITS que utiliza autoencoder variacional (VAE) com rede adversária generativa (GAN) para criar uma abordagem end-to-end de text-to-speech. Discutiremos os elementos-chave da arquitetura apresentada no paper oficial.

🔊 Em seguida, passaremos pelos passos necessários para treinar o modelo VITS. Abordaremos as etapas fundamentais, passando pela preparação dos dados de treinamento, explicação dos hiperparâmetros e como interpretar os gráficos de resultados durante o treinamento. E por fim, iremos gerar áudio utilizando novos textos de entrada para avaliarmos o modelo e vermos a mágica acontecer.


🌐 Referências:
▶ Paper do VITS - https://arxiv.org/abs/2106.06103
▶ Paper do Flow++ - https://arxiv.org/abs/1902.00275
▶ Paper do VFlow - https://arxiv.org/abs/2002.09741
▶ Paper do HiFi-GAN - https://arxiv.org/abs/2010.05646

▶ Github Fork VITS utilizado: - https://github.com/ProgramadorArtific...
▶ Github oficial do VITS - https://github.com/jaywalnut310/vits
▶ Github conversor de fonemas usado pelo VITS - https://github.com/bootphon/phonemizer
▶ Github dataset português - https://github.com/Edresson/TTS-Portu...

▶ Gráficos com os resultados do meu treinamento - https://tensorboard.dev/experiment/vL...
▶ Ajudinha para entender os resultados - https://github.com/jaywalnut310/vits/...

▶ Como funciona um modelo de text-to-speech (TTS) -    • Como Funciona um modelo de Text-To-Speech ...  
▶ Como criar dataset de áudio -    • Como Criei um Dataset de Áudio  

#VITS #TreinamentoCustomizado #TextToSpeech #ProgramadoArficial