IA da Meta copia a voz de alguém com apenas 2 segundos de amostra
Por Igor Almenara • Editado por Douglas Ciriaco |
A Meta apresentou recentemente uma nova inteligência artificial capaz de emular a voz humana. Chamada Voicebox, a IA generativa precisa apenas de uma pequena amostra da fala para gerar trechos nunca ditos antes a partir de descrições em texto.
- Controlar uma superinteligência artificial seria impossível, diz estudo
- Esteganografia: a história das mensagens ocultas e como chegaram ao ChatGPT
Bastam dois segundos de demonstração de voz para a IA já ser capaz de recriá-la em diferentes textos, imitando o timbre e tom em novas falas, parecido com o VALL-E da Microsoft, apresentado em janeiro deste ano.
"No futuro, modelos de IA generativos multifuncionais como o Voicebox poderiam dar vozes com som natural a assistentes virtuais e personagens não jogadores no metaverso", explica a Meta no anúncio. "Eles poderiam permitir que pessoas com deficiência visual ouvissem mensagens escritas de amigos lidas por IA em suas vozes, fornecer aos criadores novas ferramentas para criar e editar facilmente faixas de áudio e muito mais", complementa.
Treinamento extenso
O Voicebox foi treinado com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português. A IA aperfeiçoa os resultados tomando como base o contexto das falas, também sendo capaz de adicionar pequenos trechos à faixa sem precisar recriá-la totalmente.
Indo além
O Voicebox é capacitado para executar uma variedade de tarefas. São elas:
- Emulação de voz gerada por trechos de apenas dois segundos;
- Redução de ruído e edição de áudio de um trecho pré-gravado, removendo barulhos de fundo, sem comprometer o conteúdo;
- Tradução de conteúdo em voz, permitindo que o interlocutor converse no idioma original e tenha o conteúdo adaptado para outra língua na sua própria voz;
- Geração de falas aperfeiçoadas com dados do mundo real em seis idiomas (inglês, francês, alemão, espanhol, polonês e português).
Segundo a Meta, o Voicebox é mais poderoso que o VALL-E na geração de voz a partir de texto, sendo capaz de criar trechos com mais agilidade e menos erros que o modelo rival da MS. A IA da empresa de Mark Zuckerberg também seria melhor que o YourTTS, cometendo menos falhas e com melhor semelhança no áudio artificial.
IA de geração de voz é perigosa
Assim como a criação de imagens por IA oferece perigos, ferramentas como a Voicebox também têm potencial para gerar estrago. No Brasil, já acontecem golpes em que vozes simuladas são usadas para enganar vítimas ao se passar por parentes e amigos.
A Meta reconhece os perigos de deixar uma IA como a Voicebox livre para o público, por isso disponibilizou somente os detalhes da ferramenta num documento completo (research.facebook.com). Na página oficial (ai.facebook.com), você pode conferir as demonstrações selecionadas pela companhia.