Imita fala humana: nova IA do ChatGPT fala e ouve ao mesmo tempo
Por Marcelo Fischer Salvatico |

A OpenAI iniciou a liberação de um novo modelo de voz bidirecional para o ChatGPT, chamado internamente de "GPT-Bidi-1", de acordo com o TestingCatalog. A ferramenta altera a dinâmica atual de conversação ao permitir que a inteligência artificial ouça e fale de forma simultânea. O recurso está com o lançamento gradual para um grupo selecionado de usuários web e mobile do aplicativo, sem um anúncio oficial da empresa até o momento.
- ChatGPT grátis vale a pena? Veja o que dá e o que não dá para fazer
- Como criar uma rotina de estudos com ChatGPT do jeito certo
O objetivo da atualização é aproximar a camada de voz das capacidades já existentes nos modelos de texto da companhia. A mudança estrutural tem como base a tese da OpenAI de que a fala se tornará o principal meio de acesso à inteligência artificial nos próximos anos.
Interrupções naturais e maior retenção de contexto
De acordo com testes iniciais e vazamentos de código do aplicativo, o GPT-Bidi-1 elimina a necessidade de alternância rígida de turnos entre o usuário e o sistema, ou seja, uma conversa em que alguém fala e alguém escuta.
Se o usuário interromper o ChatGPT no meio de uma resposta, o modelo consegue mudar o foco do assunto imediatamente, sem os travamentos e reinicializações que ocorrem na ferramenta de áudio atual.
A nova arquitetura também traz as seguintes mudanças no comportamento da IA:
- Ajustes de ritmo: o modelo emite pequenos avisos naturais, como um "okay", quando detecta que a pessoa reduziu a velocidade da fala ou fez uma pausa breve, sem cortar a transmissão;
- Retenção de memória: a ferramenta mantém a linha de raciocínio ao longo de interações longas, corrigindo uma falha crônica do sistema anterior que descartava contextos antigos da conversa;
- Silêncio prolongado: o robô deixa de dar respostas precipitadas durante pausas mais demoradas do interlocutor;
- Direitos autorais estritos: o modelo mantém a capacidade de cantar e fazer beatbox, mas recusa reproduzir músicas populares protegidas por copyright, sugerindo composições inéditas no estilo do artista solicitado.
Mudanças na interface e tiers de processamento
Visualmente, a ativação do modelo altera elementos da interface do usuário. O GPT-Bidi-1 aparece listado no menu de seleção de modelos, localizado nas configurações do ChatGPT, posicionado ao lado das opções padrão e avançada.
Assim que o usuário seleciona o novo motor de voz, a bolha flutuante de conversação assume a cor amarela, substituindo o padrão visual anterior.
Diferente do atual assistente de voz que utiliza o GPT-4o adaptado para áudio, o GPT-Bidi-1 foi desenvolvido especificamente para processamento de som em tempo real.
A documentação interna indica que a funcionalidade operará com três divisões de inteligência: "High" (Alta), "Medium" (Média) e "Instant" (Instantânea). Essa separação replica a lógica dos modelos de texto, permitindo que o usuário escolha entre respostas de processamento imediato ou análises mais profundas e lentas.
A tecnologia está em desenvolvimento desde o início de 2026 e a expectativa é que o modelo seja expandido em um formato de adesão opcional. Na sequência deste lançamento, a OpenAI planeja uma atualização de voz dedicada para a ferramenta de programação Codex e, posteriormente, a liberação de acesso via API para desenvolvedores externos.