Humanos não distinguem bem deepfake de voz com a fala humana

Por Fidel Forato • Editado por Luciana Zaramela | 03/08/2023 às 14:50 • Atualizado 03/08/2023 às 14:50

Compartilhe:

A chegada da Inteligência Artificial (IA) generativa acelerou e melhorou os resultados de muitas ferramentas de criação, como as usadas na geração de áudios falsos. O problema é que, aparentemente, as pessoas têm pouco capacidade em distinguir o que é um deepfake de voz e uma fala humana verdadeira, segundo estudo publicado na revista científica PLoS ONE.

No experimento, os pesquisadores do University College London (UCL), na Inglaterra, testaram a capacidade de 529 pessoas em identificar o que era uma voz real e o que era um deepfake sonoro. Em mais de um quarto dos casos (27%), os voluntários se confundiram entre o que era real e inventado pelo algoritmo da IA. Os áudios estavam em inglês ou em mandarim.

Pessoas têm dificuldade em identificar áudios falsos

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Segundo o experimento, os participantes só conseguiram identificar o deepfake de voz em 73% das ocasiões. O aparente problema é que, mesmo quando aprendiam técnicas que ajudam a reconhecer as falas falsas, o índice de acerto variou pouco.

“Nossas descobertas confirmam que os humanos são incapazes de detectar, com segurança, a fala deepfake, tenham ou não recebido treinamento para ajudá-los a identificar conteúdo artificial”, afirma Kimberly Mai, professora da UCL e primeira autora do estudo, em nota.

“É importante observar que as amostras que usamos neste estudo foram criadas com algoritmos relativamente antigos”, pontua Mai. Para a especialista, as novas ferramentas podem ser ainda mais precisas, gerando uma confusão maior na cabeça das pessoas.

Uso extensivo de deepfakes e seus riscos

Aproveitando a tecnologia por trás dos deepfakes, uma empresa automotiva lançou recentemente um comercial com a cantora Elisa Regina, já falecida. O fundador da Apple, Steve Jobs, também concedeu uma entrevista póstuma em um podcast. Se não existirem avisos específicos, muitas pessoas podem se confundir, mesmo que a morte de ambos seja de conhecimento público.

Só que a questão envolvendo figuras públicas está longe de ser o maior problema revelado pela pesquisa. A questão ainda maior são as fraudes e os golpes, que poderão se intensificar. Afinal, hoje, alguns segundos ou minutos de uma fala verdadeira são suficientes para treinar um algoritmo, que passará a reproduzir som originais com base na voz original.

Nesse cenário, é preciso criar melhores mecanismos de checagem para deepfakes. “Seria prudente que governos e organizações desenvolvessem estratégias para lidar com o abuso dessas ferramentas”, afirma Lewis Griffin, professor da UCL e um dos autores do estudo.

Continua após a publicidade

Apesar do desafio, Griffin é otimista com as oportunidades da nova tecnologia, como a possibilidade de restaurar a voz de pessoas que a perderam por causa de alguma doença.

Fonte: PLoS ONE e UCL