Imita fala humana: nova IA do ChatGPT fala e ouve ao mesmo tempo

Por Marcelo Fischer Salvatico | 23/06/2026 às 11:35

Compartilhe:

A OpenAI iniciou a liberação de um novo modelo de voz bidirecional para o ChatGPT, chamado internamente de "GPT-Bidi-1", de acordo com o TestingCatalog. A ferramenta altera a dinâmica atual de conversação ao permitir que a inteligência artificial ouça e fale de forma simultânea. O recurso está com o lançamento gradual para um grupo selecionado de usuários web e mobile do aplicativo, sem um anúncio oficial da empresa até o momento.

O objetivo da atualização é aproximar a camada de voz das capacidades já existentes nos modelos de texto da companhia. A mudança estrutural tem como base a tese da OpenAI de que a fala se tornará o principal meio de acesso à inteligência artificial nos próximos anos.

Interrupções naturais e maior retenção de contexto

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

De acordo com testes iniciais e vazamentos de código do aplicativo, o GPT-Bidi-1 elimina a necessidade de alternância rígida de turnos entre o usuário e o sistema, ou seja, uma conversa em que alguém fala e alguém escuta.

Se o usuário interromper o ChatGPT no meio de uma resposta, o modelo consegue mudar o foco do assunto imediatamente, sem os travamentos e reinicializações que ocorrem na ferramenta de áudio atual.

A nova arquitetura também traz as seguintes mudanças no comportamento da IA:

Ajustes de ritmo: o modelo emite pequenos avisos naturais, como um "okay", quando detecta que a pessoa reduziu a velocidade da fala ou fez uma pausa breve, sem cortar a transmissão;
Retenção de memória: a ferramenta mantém a linha de raciocínio ao longo de interações longas, corrigindo uma falha crônica do sistema anterior que descartava contextos antigos da conversa;
Silêncio prolongado: o robô deixa de dar respostas precipitadas durante pausas mais demoradas do interlocutor;
Direitos autorais estritos: o modelo mantém a capacidade de cantar e fazer beatbox, mas recusa reproduzir músicas populares protegidas por copyright, sugerindo composições inéditas no estilo do artista solicitado.

Mudanças na interface e tiers de processamento

Visualmente, a ativação do modelo altera elementos da interface do usuário. O GPT-Bidi-1 aparece listado no menu de seleção de modelos, localizado nas configurações do ChatGPT, posicionado ao lado das opções padrão e avançada.

Assim que o usuário seleciona o novo motor de voz, a bolha flutuante de conversação assume a cor amarela, substituindo o padrão visual anterior.

Continua após a publicidade

Diferente do atual assistente de voz que utiliza o GPT-4o adaptado para áudio, o GPT-Bidi-1 foi desenvolvido especificamente para processamento de som em tempo real.

A documentação interna indica que a funcionalidade operará com três divisões de inteligência: "High" (Alta), "Medium" (Média) e "Instant" (Instantânea). Essa separação replica a lógica dos modelos de texto, permitindo que o usuário escolha entre respostas de processamento imediato ou análises mais profundas e lentas.

A tecnologia está em desenvolvimento desde o início de 2026 e a expectativa é que o modelo seja expandido em um formato de adesão opcional. Na sequência deste lançamento, a OpenAI planeja uma atualização de voz dedicada para a ferramenta de programação Codex e, posteriormente, a liberação de acesso via API para desenvolvedores externos.