O que é Sarvam Audio, IA para transcrever mensagens e gravações de voz?
Por João Melo • Editado por Bruno De Blasi |

A startup indiana Sarvam AI promete estabelecer novos padrões de reconhecimento de fala para línguas indianas com o lançamento do Sarvam Audio. Segundo a empresa, o sistema de transcrição foi treinado para compreender a complexidade da comunicação do mundo real.
- MiniMax Audio: conheça IA capaz de converter texto para fala e criar locuções
- 5 ferramentas que transcrevem áudios para acelerar os estudos
Classificada como uma extensão do Sarvam 3B — modelo de linguagem com 3 bilhões de parâmetros —, a ferramenta se destaca por oferecer suporte a 22 idiomas indianos, além do inglês. Um de seus principais diferenciais é a capacidade de lidar com o que é conhecido como code-mixing.
Isso significa que a plataforma de inteligência artificial consegue transcrever com alta eficiência frases em que o falante mistura palavras de diferentes idiomas. Essa prática é comum em países multilíngues, mas ainda representa um desafio para sistemas tradicionais de transcrição.
A companhia afirma ainda que o Sarvam Audio foi projetado não apenas para transformar áudio em texto, mas também para identificar o contexto da fala e otimizar o resultado final da transcrição.
“O contexto é essencial para decodificar áudio do mundo real. A estrutura baseada em LLM permite que o Sarvam Audio aproveite o contexto fornecido por meio de descrições textuais ou do histórico de conversas para melhorar significativamente a qualidade da transcrição em cenários complexos”, destaca a Sarvam AI em comunicado.
Controle sobre a formatação do texto transcrito
Outro diferencial da IA de transcrição da Sarvam é permitir que o usuário escolha o formato final do texto. O sistema disponibiliza cinco modos distintos:
- Transcrição literal: registra cada palavra exatamente como foi dita, sendo indicada para serviços de atendimento ao cliente;
- Normalizado sem code-mixing: apresenta o texto com pontuação adequada e conversão de números falados em dígitos, recomendado para e-commerce;
- Normalizado com code-mixing: considerado o “melhor dos dois mundos”, mantém o alfabeto nativo, mas preserva termos em inglês no alfabeto romano. É ideal para bancos e fintechs;
- Saída romanizada: transcreve todo o áudio para o alfabeto romano, tornando o texto legível para qualquer pessoa, sendo indicado para WhatsApp Business e interações via chat;
- Tradução inteligente: permite que o usuário fale em qualquer idioma indiano e receba a transcrição integralmente em inglês, alternativa voltada a criadores de conteúdo que desejam alcançar um público global.
Memória conversacional e múltiplos falantes
O Sarvam Audio também promete utilizar memória conversacional para evitar confusão entre termos que soam de forma semelhante durante a transcrição. Na prática, isso significa que o sistema consegue interpretar o que foi dito com base no contexto das falas anteriores.
Além disso, a ferramenta de IA consegue identificar quem está falando em uma gravação. O material de anúncio indica que o sistema é capaz de processar áudios de até 60 minutos, atribuindo falas a até oito participantes de uma reunião com alto nível de precisão.
Esse recurso é especialmente útil no processamento de reuniões, entrevistas e outras conversas que envolvem múltiplos participantes e até mesmo falas sobrepostas.
Comandos diretos e desempenho frente a outros modelos
Outra funcionalidade que pode diferenciar o Sarvam Audio de seus concorrentes é o recurso chamado Speech to Command, que elimina a necessidade de transcrever o áudio para, em seguida, outro modelo interpretar o texto e compreender o contexto — um processo que pode gerar atrasos e erros.
Em vez disso, o sistema da startup indiana realiza uma operação de "ponta a ponta", sendo capaz de ouvir o áudio e extrair simultaneamente os dados técnicos e comandos necessários para executar ações de forma quase imediata.
Em termos de precisão, a Sarvam AI afirma que sua solução supera modelos consolidados, como o GPT-4o Transcribe e o Gemini 3 Flash, em benchmarks específicos. Os testes indicariam maior eficácia na preservação de nomes próprios, endereços e na diferenciação de palavras com sonoridade semelhante.
Disponibilidade
A startup informa que o Sarvam Audio estará disponível “em breve” no Sarvam Dashboard, mas ainda não divulgou detalhes sobre preços ou modelos de acesso ao sistema.
Leia mais:
- Audacity ganha IA para transcrever áudios e gerar músicas
- Meta lança IA capaz de extrair o áudio de qualquer arquivo; confira
- Voz gerada por IA já é indistinguível da humana — mas ainda não é hiper-realista
VÍDEO: O Gemini é muito bom (e isso é um problema)