Publicidade

IA da Meta copia a voz de alguém com apenas 2 segundos de amostra

Por| Editado por Douglas Ciriaco | 19 de Junho de 2023 às 16h09

Link copiado!

goinyk/Envato Elements
goinyk/Envato Elements

A Meta apresentou recentemente uma nova inteligência artificial capaz de emular a voz humana. Chamada Voicebox, a IA generativa precisa apenas de uma pequena amostra da fala para gerar trechos nunca ditos antes a partir de descrições em texto.

Bastam dois segundos de demonstração de voz para a IA já ser capaz de recriá-la em diferentes textos, imitando o timbre e tom em novas falas, parecido com o VALL-E da Microsoft, apresentado em janeiro deste ano.

Continua após a publicidade

"No futuro, modelos de IA generativos multifuncionais como o Voicebox poderiam dar vozes com som natural a assistentes virtuais e personagens não jogadores no metaverso", explica a Meta no anúncio. "Eles poderiam permitir que pessoas com deficiência visual ouvissem mensagens escritas de amigos lidas por IA em suas vozes, fornecer aos criadores novas ferramentas para criar e editar facilmente faixas de áudio e muito mais", complementa.

Treinamento extenso

O Voicebox foi treinado com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português. A IA aperfeiçoa os resultados tomando como base o contexto das falas, também sendo capaz de adicionar pequenos trechos à faixa sem precisar recriá-la totalmente.

Indo além

Continua após a publicidade

O Voicebox é capacitado para executar uma variedade de tarefas. São elas:

  • Emulação de voz gerada por trechos de apenas dois segundos;
  • Redução de ruído e edição de áudio de um trecho pré-gravado, removendo barulhos de fundo, sem comprometer o conteúdo;
  • Tradução de conteúdo em voz, permitindo que o interlocutor converse no idioma original e tenha o conteúdo adaptado para outra língua na sua própria voz;
  • Geração de falas aperfeiçoadas com dados do mundo real em seis idiomas (inglês, francês, alemão, espanhol, polonês e português).

Segundo a Meta, o Voicebox é mais poderoso que o VALL-E na geração de voz a partir de texto, sendo capaz de criar trechos com mais agilidade e menos erros que o modelo rival da MS. A IA da empresa de Mark Zuckerberg também seria melhor que o YourTTS, cometendo menos falhas e com melhor semelhança no áudio artificial.

IA de geração de voz é perigosa

Continua após a publicidade

Assim como a criação de imagens por IA oferece perigos, ferramentas como a Voicebox também têm potencial para gerar estrago. No Brasil, já acontecem golpes em que vozes simuladas são usadas para enganar vítimas ao se passar por parentes e amigos.

A Meta reconhece os perigos de deixar uma IA como a Voicebox livre para o público, por isso disponibilizou somente os detalhes da ferramenta num documento completo (research.facebook.com). Na página oficial (ai.facebook.com), você pode conferir as demonstrações selecionadas pela companhia.