Microsoft cria IA capaz de imitar vozes a partir de amostras de 3 segundos
Por Igor Almenara • Editado por Douglas Ciriaco |
A Microsoft desenvolveu uma inteligência artificial capaz de replicar vozes humanas a partir de amostras de pelo menos três segundos. Treinada com mais de 60 mil horas de áudios em inglês, a IA VALL-E consegue simular criar falas a partir de texto simulando emoções, diferentes tons de voz e até criar expressões e falas inexistentes no áudio original.
- O que é ChatGPT e por que ele preocupa tanto?
- IA da Nvidia promete aprimorar vídeos de baixa qualidade da web
O VALL-E é uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS) e é objeto de estudo de um projeto apresentado na Universidade de Cornell, em Nova York, Estados Unidos. Trata-se de um modelo de linguagem codec natural capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de três segundos.
A plataforma toma pequenas faixas de voz como exemplo e as modifica para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.
No GitHub, a Microsoft apresentou vários resultados de simulações de voz feitas pelo VALL-E. Algumas das vozes simuladas são convincentes e leem o trecho apresentado de forma coesa e coerente, enquanto outros exemplos são claramente gerados por computador, mais travados e robotizados.
Questões éticas
Assim como a geração de imagens a partir de referências, a IA VALL-E é significativamente perigosa. A ferramenta serviria perfeitamente para simular vozes de outras pessoas sem a devida autorização, apesar de o resultado não ser tão convincente em todos os cenários.
A IA poderia, por exemplo, ser colocada para simular discursos de políticos e dar voz a figuras públicas importantes, aproveitando também da compactação de áudio das redes sociais e mensageiros para mascarar as falhas da amostra. Se disponível para o público de forma indiscriminada, qualquer um poderia inserir amostras de um político, artista ou amigos, e criar qualquer discurso.
As vozes sintéticas também poderiam ser usadas para atacar pessoas específicas, como simular sequestros, pedidos de dinheiro e ofensas. Além disso, as faixas geradas pela VALL-E também poderiam ser utilizadas para conversar com bancos e pessoas de confiança, e se passar por alguém.
IA de uso restrito
Por conta desse perigo, a VALL-E não está disponível para o público geral e somente pode ser conferida a partir das amostras divulgadas pela companhia.
"Os experimentos deste trabalho foram realizados sob a suposição de que o usuário do modelo é o locutor alvo e foi aprovado pelo locutor", esclareceu os autores do estudo.
Fonte: VALL-E