MusicGen | Conheça a IA da Meta que transforma texto em música

Por Fabrício Calixto • Editado por Douglas Ciriaco | 15/06/2023 às 11:31 • Atualizado 15/06/2023 às 11:31

Compartilhe:

A corrida das inteligências artificiais generativas está entrando em um novo capítulo, ou melhor, em uma nova faixa, isso porque a Meta anunciou recentemente o MusicGen: um gerador de músicas com base em IA que é capaz de transformar qualquer descrição em áudios de até 15 segundos. Não tão novidade assim, a aposta da empresa de Mark Zuckerberg bate de frente com o MusicLM do Google, que faz a mesma coisa, porém, em código fechado — já que o MusicGen é open-source.

Como funciona o MusicGen?

Operando de modo semelhante ao DALL-E e ao Midjourney, que transformam descrição em texto em imagem, o MusicGen cria um trecho de música conforme a descrição feita pelo usuário. Isso é possível graças ao algoritmo Transformer, desenvolvido pela OpenAI e presente na maioria das ferramentas de IA generativa.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Além do modelo computacional, os criadores do MusicGen também utilizam o tokenizador de áudio EnCodec da própria Meta. No caso, o sistema usa técnicas de aprendizado de máquina para compactar faixas de modo eficiente e entregar resultados mais ágeis ao usuário.

Com o objetivo de ampliar o repertório da IA, a equipe por trás de sua criação anexou aproximadamente 20 mil horas de músicas autorizadas para uso e cerca de 10 mil gravações de áudio do mais alto padrão — incluindo material disponível em Shutterstock e Pond5 e dados coletados internamente.

Apesar de todo esse poderio, a nova ferramenta da Meta pode não entregar resultados tão satisfatórios assim, possivelmente por ser nova demais e ainda estar em desenvolvimento. Por exemplo, em um rápido teste, o gerador de trechos musicais da Meta criou fragmentos com batidas genéricas e que pouco tinham a ver com o pedido. Talvez a plataforma ainda demande amostragens mais complexas para criar canções consistentes. No entanto, os resultados podem ser usados como ponto de partida para a geração de algo mais robusto — desde que o usuário domine edição de áudio, é claro.

Como usar o MusicGen

Você já pode experimentar o MusicGen através da API Hugging Face: um modelo open source de aprendizado de máquina que executa tarefas como escrever e-mails, poemas e letras de música. No entanto, vale ressaltar que o gerador musical pode demorar um pouco para entregar os resultados, caso o site esteja sobrecarregado por conta de múltiplos acessos.

Para usar o MusicGen, faça assim:

Acesse o MusicGen no site da Huggin Face (huggingface.co);
Clique na coluna "Describe your music" e digite o texto desejado;
Clique no botão "Generate";
Passe o mouse sobre o trecho musical e toque em "Play" para ouvir.

Continua após a publicidade

A descrição de texto é transformada em um pequeno trecho sonoro de 15 segundos. Caso queira, você também pode arrastar um amostra de áudio para o centro da tela. O MusicGen usará o arquivo de referência para entregar um resultado, em teste, mais elaborado e de acordo com as preferências estabelecidas pelo usuário.

Se o aplicativo vai pegar ou não, só o futuro dirá. Além do mais, ainda existem diversas questões éticas que rodeiam o uso desse tipo de tecnologia, algo próximo dos debates envolvendo plataformas de IA como Midjourney e DALL-E.