Publicidade

Meta lança IA para clonar voz e criar áudio a partir de texto

Por| Editado por Douglas Ciriaco | 12 de Dezembro de 2023 às 17h54

Link copiado!

Divulgação/Meta
Divulgação/Meta

A Meta lançou uma IA generativa de áudio com um conjunto de soluções para criar efeitos sonoros, gravar narrações personalizadas ou clonar vozes. As ferramentas fazem parte do novo modelo de fundação da companhia, o Audiobox, e incluem modelos de linguagem treinados em som e fala.

O Audiobox pode ser utilizado gratuitamente para fins não comerciais por qualquer pessoa e permite combinar entradas de comando em texto e voz. Porém, a IA só foi capaz de gerar áudio em inglês no teste realizado pelo Canaltech.

Segundo a página da Meta sobre o modelo, o Audiobox é o sucessor do Voicebox, lançado no começo do ano, e "unifica os recursos de geração e edição de fala, efeitos e paisagens sonoras, com uma variedade de mecanismos de entrada para maximizar o controle sobre cada aplicação"

Continua após a publicidade

Como usar o Audiobox

O Audiobox oferece duas possibilidades para a criação de áudio: através do pacote "Capabilities", que apresentam as habilidades individuais da IA, ou pela ferramenta "Maker", na qual é possível combinar os recursos para gerar histórias com gravações e efeitos sonoros.

Dentro da seção "Capabilities", há quatro modelos para teste:

  • Your voice;
  • Described voice;
  • Restyled Voices;
  • Sound Effects.
Continua após a publicidade
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Na primeira opção, você pode gravar o som da sua voz — com a leitura de um parágrafo exibido pela ferramenta em inglês — e gerar novas narrações de textos a partir da voz "clonada".

Com o "Described voice", é possível descrever um estilo de voz para ser aplicado na narração do texto, incluindo sotaque em inglês ou o efeito de eco produzido por um ambiente amplo.

No "Restyled Voices", há a opção de combinar os recursos de copiar voz e incluir alteração de estilo com base na descrição de texto. Já no "Sound effects", os usuários podem criar efeitos e ruídos variados para utilizar em seus áudios.

Continua após a publicidade

Além dos modelos de geração de áudio, o "Capabilities" contém duas funções de edição: o "Magic Eraser" para eliminar ruídos, e o "Sound Infiling" para substituir trechos de uma gravação.

Audiobox Maker

Na solução "Audiobox Maker", as possibilidades de criação são ainda mais avançadas com a opção de combinar as ferramentas generativas do modelo e produzir uma pequena história dentro de uma linha do tempo.

Nesse estúdio, é possível adicionar áudios de diferentes "personagens" (ou com variação na interpretação de voz) e incluir ruídos e efeitos sonoros para auxiliar na produção de contexto.

Continua após a publicidade

As gravações podem ser baixadas em formato WAV para o compartilhamento com amigos ou em outras plataformas. No entanto, a Meta avisa que os arquivos não devem ser utilizados para fins comerciais.

Apenas em inglês

Por enquanto, toda a experiência com o Audiobox só está disponível em inglês: não apenas a interface não tem tradução, como os áudios e as descrições de texto também precisam estar em inglês — ao tentar uma entrada em português, a ferramenta retorna uma mensagem de erro.

Continua após a publicidade

Para experimentar a nova IA de áudio da Meta, acesse: audiobox.metademolab.com.