Meta lança IA para clonar voz e criar áudio a partir de texto
Por Guilherme Haas | Editado por Douglas Ciriaco | 12 de Dezembro de 2023 às 17h54
A Meta lançou uma IA generativa de áudio com um conjunto de soluções para criar efeitos sonoros, gravar narrações personalizadas ou clonar vozes. As ferramentas fazem parte do novo modelo de fundação da companhia, o Audiobox, e incluem modelos de linguagem treinados em som e fala.
O Audiobox pode ser utilizado gratuitamente para fins não comerciais por qualquer pessoa e permite combinar entradas de comando em texto e voz. Porém, a IA só foi capaz de gerar áudio em inglês no teste realizado pelo Canaltech.
Segundo a página da Meta sobre o modelo, o Audiobox é o sucessor do Voicebox, lançado no começo do ano, e "unifica os recursos de geração e edição de fala, efeitos e paisagens sonoras, com uma variedade de mecanismos de entrada para maximizar o controle sobre cada aplicação"
Como usar o Audiobox
O Audiobox oferece duas possibilidades para a criação de áudio: através do pacote "Capabilities", que apresentam as habilidades individuais da IA, ou pela ferramenta "Maker", na qual é possível combinar os recursos para gerar histórias com gravações e efeitos sonoros.
Dentro da seção "Capabilities", há quatro modelos para teste:
- Your voice;
- Described voice;
- Restyled Voices;
- Sound Effects.
Na primeira opção, você pode gravar o som da sua voz — com a leitura de um parágrafo exibido pela ferramenta em inglês — e gerar novas narrações de textos a partir da voz "clonada".
Com o "Described voice", é possível descrever um estilo de voz para ser aplicado na narração do texto, incluindo sotaque em inglês ou o efeito de eco produzido por um ambiente amplo.
No "Restyled Voices", há a opção de combinar os recursos de copiar voz e incluir alteração de estilo com base na descrição de texto. Já no "Sound effects", os usuários podem criar efeitos e ruídos variados para utilizar em seus áudios.
Além dos modelos de geração de áudio, o "Capabilities" contém duas funções de edição: o "Magic Eraser" para eliminar ruídos, e o "Sound Infiling" para substituir trechos de uma gravação.
Audiobox Maker
Na solução "Audiobox Maker", as possibilidades de criação são ainda mais avançadas com a opção de combinar as ferramentas generativas do modelo e produzir uma pequena história dentro de uma linha do tempo.
Nesse estúdio, é possível adicionar áudios de diferentes "personagens" (ou com variação na interpretação de voz) e incluir ruídos e efeitos sonoros para auxiliar na produção de contexto.
As gravações podem ser baixadas em formato WAV para o compartilhamento com amigos ou em outras plataformas. No entanto, a Meta avisa que os arquivos não devem ser utilizados para fins comerciais.
Apenas em inglês
Por enquanto, toda a experiência com o Audiobox só está disponível em inglês: não apenas a interface não tem tradução, como os áudios e as descrições de texto também precisam estar em inglês — ao tentar uma entrada em português, a ferramenta retorna uma mensagem de erro.
Para experimentar a nova IA de áudio da Meta, acesse: audiobox.metademolab.com.