Quase todos os tradutores de voz funcionam da mesma forma: eles convertem sua fala para texto, traduzem o texto e depois sintetizam o texto traduzido em uma nova voz. O Google anunciou nesta quarta-feira (15) o Translatotron, que elimina a fase intermediária e traduz de voz para voz. Não apenas isso: ele também é capaz de preservar as características da voz original.
O Translatotron (quero ver você falar isso rápido três vezes) é o nome que o Google deu para um novo sistema experimental capaz de fazer “tradução direta de fala para fala sem depender de representação intermediária em texto”. Em resumo, ele usa como fonte os espectrogramas originais e então gera espectrogramas traduzidos na linguagem definida.
Segundo o Google, “esse sistema evita dividir a tarefa em estágios separados, fornecendo algumas vantagens sobre sistemas em cascata, incluindo velocidade de inferência mais rápida, evitando naturalmente erros de composição entre reconhecimento e tradução, facilitando a retenção da voz do falante original após a tradução e lidando melhor com palavras que não precisam ser traduzidas”.
Neste primeiro exemplo, fica claro como ele é melhor que um sistema em cascata especialmente quando há nomes próprios. Esta é a fala original, em espanhol:
O sistema baseado em texto traduziu o nome Guillermo para William (o que obviamente não era a intenção):
Já o Translatotron fez a tradução correta, inclusive preservando o “ahn”:
As traduções acima foram realizadas apenas com um vocoder neural, que pode analisar e sintetizar uma voz humana. Mas também é possível adicionar um módulo que o Google chama de codificador de falante: ele “mantém as características da voz do falante na fala traduzida sintetizada”. As duas partes podem funcionar em conjunto, trabalhando apenas com ondas sonoras, sem texto envolvido.
O resultado não é perfeito, mas é mais familiar que no método tradicional. Esta é a fala original em espanhol:
Aqui temos a tradução já com o Translatotron, mas utilizando apenas uma voz padrão:
E esta é a tradução imitando a voz original (o Google explica que este modelo foi treinado com menos dados, por isso a tradução é um pouco diferente da anterior):
O Translatotron é apenas um experimento por enquanto, mas não é difícil imaginar que ele seja utilizado em algum produto do Google no futuro, como o Google Tradutor. Os detalhes da pesquisa podem ser encontrados nesta página.
Nenhum comentário:
Postar um comentário