Voz gerada por IA já é indistinguível da humana — mas ainda não é hiper-realista

Por Nathan Vieira • Editado por Melissa Cruz Cossetti | 30/09/2025 às 09:22

Compartilhe:

A IA já é convincente na estética, mas na última quarta-feira (24), um estudo publicado na PLOS ONE revelou que as vozes geradas por inteligência artificial atingiram um nível em que podem soar tão realistas quanto a fala humana. A pesquisa, conduzida por especialistas da Queen Mary University of London, mostra que “clones de voz” já confundem ouvintes, tornando difícil distinguir o que é natural do que é sintético.

Segundo os pesquisadores, os avanços recentes em síntese de voz permitem criar cópias quase perfeitas de vozes humanas a partir de poucos minutos de gravação. Com softwares comerciais, é possível clonar vozes com baixo custo, rapidez e sem necessidade de conhecimentos técnicos avançados.

Esses clones podem reproduzir entonações, sotaques e até transmitir emoções, a ponto de parecerem autênticos em contextos comuns de conversação. Em alguns testes, ouvintes avaliaram as vozes artificiais como mais dominantes e até mais confiáveis do que as humanas.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

No entanto, ao contrário do que já foi observado em imagens geradas por IA (que podem parecer até mais reais que fotos verdadeiras), o estudo não identificou o chamado “efeito hiper-realista” nas vozes.

Riscos da voz artificial

Embora haja potenciais benefícios em áreas como acessibilidade, educação e comunicação, o uso indiscriminado dessa tecnologia traz sérias preocupações. Casos de fraudes, golpes telefônicos e manipulação de informações com vozes clonadas já estão sendo relatados em diferentes países.

Continua após a publicidade

A BBC, por exemplo, destacou recentemente que até especialistas em fonética têm dificuldade em diferenciar vozes artificiais de humanas. Pausas irregulares, respirações e ênfases em certas palavras, pistas que antes ajudavam a identificar o que era “falso”, já não são suficientes para detectar deepfakes de voz.

Empresas de segurança digital alertam que sistemas de autenticação por voz podem ser facilmente enganados. Isso levanta questões éticas e de privacidade, exigindo o desenvolvimento urgente de mecanismos de detecção e regulamentação.

O que esperar para o futuro

De acordo com a professora Nadine Lavan, que co-liderou o estudo, estamos apenas no início de uma era em que vozes geradas por IA serão comuns no cotidiano. A estimativa é que a linha entre real e sintético ficará cada vez mais tênue. Para especialistas, a sociedade precisará equilibrar os benefícios criativos e acessíveis da tecnologia com a necessidade de segurança contra manipulações maliciosas.

Continua após a publicidade