Voz gerada por IA já é indistinguível da humana — mas ainda não é hiper-realista
Por Nathan Vieira • Editado por Melissa Cruz Cossetti |

A IA já é convincente na estética, mas na última quarta-feira (24), um estudo publicado na PLOS ONE revelou que as vozes geradas por inteligência artificial atingiram um nível em que podem soar tão realistas quanto a fala humana. A pesquisa, conduzida por especialistas da Queen Mary University of London, mostra que “clones de voz” já confundem ouvintes, tornando difícil distinguir o que é natural do que é sintético.
- Microsoft lança assistente de IA de voz para médicos; entenda
- Banalização da privacidade: este app paga para você vender sua voz para IAs
Segundo os pesquisadores, os avanços recentes em síntese de voz permitem criar cópias quase perfeitas de vozes humanas a partir de poucos minutos de gravação. Com softwares comerciais, é possível clonar vozes com baixo custo, rapidez e sem necessidade de conhecimentos técnicos avançados.
Esses clones podem reproduzir entonações, sotaques e até transmitir emoções, a ponto de parecerem autênticos em contextos comuns de conversação. Em alguns testes, ouvintes avaliaram as vozes artificiais como mais dominantes e até mais confiáveis do que as humanas.
No entanto, ao contrário do que já foi observado em imagens geradas por IA (que podem parecer até mais reais que fotos verdadeiras), o estudo não identificou o chamado “efeito hiper-realista” nas vozes.
Riscos da voz artificial
Embora haja potenciais benefícios em áreas como acessibilidade, educação e comunicação, o uso indiscriminado dessa tecnologia traz sérias preocupações. Casos de fraudes, golpes telefônicos e manipulação de informações com vozes clonadas já estão sendo relatados em diferentes países.
A BBC, por exemplo, destacou recentemente que até especialistas em fonética têm dificuldade em diferenciar vozes artificiais de humanas. Pausas irregulares, respirações e ênfases em certas palavras, pistas que antes ajudavam a identificar o que era “falso”, já não são suficientes para detectar deepfakes de voz.
Empresas de segurança digital alertam que sistemas de autenticação por voz podem ser facilmente enganados. Isso levanta questões éticas e de privacidade, exigindo o desenvolvimento urgente de mecanismos de detecção e regulamentação.
O que esperar para o futuro
De acordo com a professora Nadine Lavan, que co-liderou o estudo, estamos apenas no início de uma era em que vozes geradas por IA serão comuns no cotidiano. A estimativa é que a linha entre real e sintético ficará cada vez mais tênue. Para especialistas, a sociedade precisará equilibrar os benefícios criativos e acessíveis da tecnologia com a necessidade de segurança contra manipulações maliciosas.
Leia também:
- Voz interior | Cientistas captam palavras que pessoas pensaram, mas não disseram
- Empresa chinesa cria humanoides muito realistas — vídeos parecem feitos por IA
VÍDEO | O Gemini é muito bom (e isso é um problema)
Fonte: BBC Future, Tech Xplore