Humanos não distinguem bem deepfake de voz com a fala humana
Por Fidel Forato • Editado por Luciana Zaramela |
A chegada da Inteligência Artificial (IA) generativa acelerou e melhorou os resultados de muitas ferramentas de criação, como as usadas na geração de áudios falsos. O problema é que, aparentemente, as pessoas têm pouco capacidade em distinguir o que é um deepfake de voz e uma fala humana verdadeira, segundo estudo publicado na revista científica PLoS ONE.
No experimento, os pesquisadores do University College London (UCL), na Inglaterra, testaram a capacidade de 529 pessoas em identificar o que era uma voz real e o que era um deepfake sonoro. Em mais de um quarto dos casos (27%), os voluntários se confundiram entre o que era real e inventado pelo algoritmo da IA. Os áudios estavam em inglês ou em mandarim.
Pessoas têm dificuldade em identificar áudios falsos
Segundo o experimento, os participantes só conseguiram identificar o deepfake de voz em 73% das ocasiões. O aparente problema é que, mesmo quando aprendiam técnicas que ajudam a reconhecer as falas falsas, o índice de acerto variou pouco.
“Nossas descobertas confirmam que os humanos são incapazes de detectar, com segurança, a fala deepfake, tenham ou não recebido treinamento para ajudá-los a identificar conteúdo artificial”, afirma Kimberly Mai, professora da UCL e primeira autora do estudo, em nota.
“É importante observar que as amostras que usamos neste estudo foram criadas com algoritmos relativamente antigos”, pontua Mai. Para a especialista, as novas ferramentas podem ser ainda mais precisas, gerando uma confusão maior na cabeça das pessoas.
Uso extensivo de deepfakes e seus riscos
Aproveitando a tecnologia por trás dos deepfakes, uma empresa automotiva lançou recentemente um comercial com a cantora Elisa Regina, já falecida. O fundador da Apple, Steve Jobs, também concedeu uma entrevista póstuma em um podcast. Se não existirem avisos específicos, muitas pessoas podem se confundir, mesmo que a morte de ambos seja de conhecimento público.
Só que a questão envolvendo figuras públicas está longe de ser o maior problema revelado pela pesquisa. A questão ainda maior são as fraudes e os golpes, que poderão se intensificar. Afinal, hoje, alguns segundos ou minutos de uma fala verdadeira são suficientes para treinar um algoritmo, que passará a reproduzir som originais com base na voz original.
Nesse cenário, é preciso criar melhores mecanismos de checagem para deepfakes. “Seria prudente que governos e organizações desenvolvessem estratégias para lidar com o abuso dessas ferramentas”, afirma Lewis Griffin, professor da UCL e um dos autores do estudo.
Apesar do desafio, Griffin é otimista com as oportunidades da nova tecnologia, como a possibilidade de restaurar a voz de pessoas que a perderam por causa de alguma doença.