MusicGen | Conheça a IA da Meta que transforma texto em música
Por Fabrício Calixto • Editado por Douglas Ciriaco |
A corrida das inteligências artificiais generativas está entrando em um novo capítulo, ou melhor, em uma nova faixa, isso porque a Meta anunciou recentemente o MusicGen: um gerador de músicas com base em IA que é capaz de transformar qualquer descrição em áudios de até 15 segundos. Não tão novidade assim, a aposta da empresa de Mark Zuckerberg bate de frente com o MusicLM do Google, que faz a mesma coisa, porém, em código fechado — já que o MusicGen é open-source.
- IA da Meta é capaz de criar imagens quase como um humano
- ImageBind | IA da Meta usa diferentes sentidos humanos para gerar conteúdo
Como funciona o MusicGen?
Operando de modo semelhante ao DALL-E e ao Midjourney, que transformam descrição em texto em imagem, o MusicGen cria um trecho de música conforme a descrição feita pelo usuário. Isso é possível graças ao algoritmo Transformer, desenvolvido pela OpenAI e presente na maioria das ferramentas de IA generativa.
Além do modelo computacional, os criadores do MusicGen também utilizam o tokenizador de áudio EnCodec da própria Meta. No caso, o sistema usa técnicas de aprendizado de máquina para compactar faixas de modo eficiente e entregar resultados mais ágeis ao usuário.
Com o objetivo de ampliar o repertório da IA, a equipe por trás de sua criação anexou aproximadamente 20 mil horas de músicas autorizadas para uso e cerca de 10 mil gravações de áudio do mais alto padrão — incluindo material disponível em Shutterstock e Pond5 e dados coletados internamente.
Apesar de todo esse poderio, a nova ferramenta da Meta pode não entregar resultados tão satisfatórios assim, possivelmente por ser nova demais e ainda estar em desenvolvimento. Por exemplo, em um rápido teste, o gerador de trechos musicais da Meta criou fragmentos com batidas genéricas e que pouco tinham a ver com o pedido. Talvez a plataforma ainda demande amostragens mais complexas para criar canções consistentes. No entanto, os resultados podem ser usados como ponto de partida para a geração de algo mais robusto — desde que o usuário domine edição de áudio, é claro.
Como usar o MusicGen
Você já pode experimentar o MusicGen através da API Hugging Face: um modelo open source de aprendizado de máquina que executa tarefas como escrever e-mails, poemas e letras de música. No entanto, vale ressaltar que o gerador musical pode demorar um pouco para entregar os resultados, caso o site esteja sobrecarregado por conta de múltiplos acessos.
Para usar o MusicGen, faça assim:
- Acesse o MusicGen no site da Huggin Face (huggingface.co);
- Clique na coluna "Describe your music" e digite o texto desejado;
- Clique no botão "Generate";
- Passe o mouse sobre o trecho musical e toque em "Play" para ouvir.
A descrição de texto é transformada em um pequeno trecho sonoro de 15 segundos. Caso queira, você também pode arrastar um amostra de áudio para o centro da tela. O MusicGen usará o arquivo de referência para entregar um resultado, em teste, mais elaborado e de acordo com as preferências estabelecidas pelo usuário.
Se o aplicativo vai pegar ou não, só o futuro dirá. Além do mais, ainda existem diversas questões éticas que rodeiam o uso desse tipo de tecnologia, algo próximo dos debates envolvendo plataformas de IA como Midjourney e DALL-E.