Com apenas 5 segundos de amostra, essa IA vai clonar 100% da sua voz

Por Rafael Arbulu | 15/11/2019 às 19:30

Compartilhe:

Com apenas 5 segundos de amostra, essa IA vai clonar 100% da sua voz

Um projeto de pesquisa em inteligência artificial (IA) da Universidade de Cornell (EUA) desenvolveu uma rede neural capaz de clonar — e imitar com muita, senão, total fidelidade — a voz de uma pessoa com base em uma amostra de meros cinco segundos. O estudo foi publicado na página de trabalhos acadêmicos da instituição de ensino e é assinado por 11 especialistas.

“Nós desenvolvemos uma rede neural baseada na sintetização de sistemas texto-para-discurso, que pode gerar clipes de áudio de indivíduos até mesmo nunca vistos por nós durante o treino do software”, diz o sumário do estudo. “Demonstramos que o modelo proposto é capaz de transferir o conhecimento de variação de porta-voz aprendida por um codificador treinado para um não-treinado e sintetizar a fala natural de pessoas não vistas durante o treino”.

Descomplicando: o sistema analisa uma voz pré-gravada (ou mesmo uma ouvida na hora) e cria um modelo matemático. Esse modelo é então inserido dentro de um software texto-para-voz, não muito diferente dos diversos modelos que se vê disponíveis por aí, com uma diferença: com o modelo matemático inserido, o sistema consegue reproduzir não apenas o que foi dito, mas com a mesma voz da fala original.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Além disso, o sistema é capaz de gerar novas vozes, além de ser programável para fazer qualquer tipo de discurso dentro da voz clonada.

Ainda bem que tudo isso é parte de uma pesquisa acadêmica. Em 2019, os chamados deepfakes tomaram as manchetes mundiais da imprensa especializada e geraram enorme preocupação com a segurança das pessoas, de anônimos a celebridades. Um sistema que emula perfeitamente a sua voz poderia muito bem encontrar usos bem nefastos nas mãos erradas.

Fonte: arXiv (Cornell University)