Publicidade

Microsoft cria IA capaz de imitar vozes a partir de amostras de 3 segundos

Por  • Editado por Douglas Ciriaco | 

Compartilhe:
Divulgação/Microsoft
Divulgação/Microsoft
Tudo sobre Microsoft

A Microsoft desenvolveu uma inteligência artificial capaz de replicar vozes humanas a partir de amostras de pelo menos três segundos. Treinada com mais de 60 mil horas de áudios em inglês, a IA VALL-E consegue simular criar falas a partir de texto simulando emoções, diferentes tons de voz e até criar expressões e falas inexistentes no áudio original.

O VALL-E é uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS) e é objeto de estudo de um projeto apresentado na Universidade de Cornell, em Nova York, Estados Unidos. Trata-se de um modelo de linguagem codec natural capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de três segundos.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

A plataforma toma pequenas faixas de voz como exemplo e as modifica para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.

No GitHub, a Microsoft apresentou vários resultados de simulações de voz feitas pelo VALL-E. Algumas das vozes simuladas são convincentes e leem o trecho apresentado de forma coesa e coerente, enquanto outros exemplos são claramente gerados por computador, mais travados e robotizados.

Questões éticas

Assim como a geração de imagens a partir de referências, a IA VALL-E é significativamente perigosa. A ferramenta serviria perfeitamente para simular vozes de outras pessoas sem a devida autorização, apesar de o resultado não ser tão convincente em todos os cenários.

A IA poderia, por exemplo, ser colocada para simular discursos de políticos e dar voz a figuras públicas importantes, aproveitando também da compactação de áudio das redes sociais e mensageiros para mascarar as falhas da amostra. Se disponível para o público de forma indiscriminada, qualquer um poderia inserir amostras de um político, artista ou amigos, e criar qualquer discurso.

As vozes sintéticas também poderiam ser usadas para atacar pessoas específicas, como simular sequestros, pedidos de dinheiro e ofensas. Além disso, as faixas geradas pela VALL-E também poderiam ser utilizadas para conversar com bancos e pessoas de confiança, e se passar por alguém.

IA de uso restrito

Por conta desse perigo, a VALL-E não está disponível para o público geral e somente pode ser conferida a partir das amostras divulgadas pela companhia.

Continua após a publicidade

"Os experimentos deste trabalho foram realizados sob a suposição de que o usuário do modelo é o locutor alvo e foi aprovado pelo locutor", esclareceu os autores do estudo.

Fonte: VALL-E