Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

OpenAI lança API de IA que transforma áudio em texto

Por| Editado por Douglas Ciriaco | 01 de Março de 2023 às 18h03

Link copiado!

Pexels/dlxmedia.hu
Pexels/dlxmedia.hu

Nesta quarta-feira (1°), a OpenAI apresentou a API Whisper, uma versão hospedada do modelo de inteligência artificial que transcreve falas em tempo real. Desenvolvedores podem implementar o ferramentas com a IA pagando US$ 0,006 por minuto de uso.

A API Whisper teve código aberto para o público em setembro de 2022, suporta os de formatos de arquivos, como M4A, MP3, MP4, MPEG, WAV e WEBM, e é compatível com uma variedade de idiomas, sendo capaz de traduzir o texto obtido para inglês.

Continua após a publicidade

Em funcionalidade, o Whisper é como a ferramenta de transcrição automática do Google Meet. A IA consegue interpretar o conteúdo falado num áudio ou vídeo e colocá-lo em texto, como em legendas automáticas. A diferença dele, porém, seria o preparo: foram mais de 680 mil horas de áudio multilingual e "multitarefa" para refinar o modelo, segundo o presidente da OpenAI Greg Brockman.

Ao disponibilizar uma API do Whisper, a OpenAI espera abrir portas para companhias explorarem a companhia por conta própria e criem ferramentas inovadoras com os poderes da transcrição de texto. O modelo é menos impressionante do que o chatbotChatGPT, mas pode ser uma engrenagem importante de recursos de acessibilidade e comunicação empresarial.

IA de transcrição é limitada

O sistema do Whisper é treinado com milhões de minutos de conteúdo barulhento e indefinido e, por isso, pode apresentar resultados errados. De acordo com a OpenAI, o modelo tem a tendência de mostrar palavras erradas que ainda não foram ditas, na tentativa de "prever" o que vai ser falado pelo locutor.

Continua após a publicidade

Além disso, o Whisper não é perfeito em outros idiomas e pode apresentar problemas em línguas em que foi menos treinado. A OpenAI não especificou em quais dialetos isso deve acontecer com mais frequência.

"Lançamos um modelo, mas isso não foi suficiente para fazer com que todo o ecossistema de desenvolvedores se desenvolvesse em torno dele", disse o presidente da OpenAI ao TechCrunch. "A API Whisper é o mesmo modelo grande que você pode obter de código aberto, mas otimizamos ao extremo", acrescentou.