Microsoft revela IA que transforma fotos em "cabeças falantes"
Por Guilherme Haas • Editado por Douglas Ciriaco | •
A Microsoft divulgou a criação de uma nova IA capaz de gerar vídeos de rostos falantes a partir da combinação de uma foto de retrato e um arquivo de áudio com o discurso da pessoa. A inteligência artificial recebeu o nome de VASA, mas ainda não foi disponibilizada para o público.
Na apresentação, a Microsoft reconhece a preocupação sobre o potencial de a ferramenta ser usada indevidamente para se passar por humanos e informa que não há previsão de de lançamento do VASA enquanto não tiver certeza que a solução poderá ser utilizada com segurança e responsabilidade.
Vídeos de rostos falantes com IA
O novo modelo de linguagem da Microsoft é capaz de transformar fotos em vídeos falantes com expressão facial, movimentação da cabeça e sincronização labial a partir de uma simples imagem e um áudio.
Nos resultados apresentados pela companhia na página de pesquisa, os exemplos destacam a possibilidade de solicitar diferentes ângulos e posições dos rostos nos vídeos — como mudança na orientação do olhar e na escala de tamanho da cabeça em relação ao espaço de tela.
Não apenas é possível criar vídeos com bastante realismo a partir de fotos de rostos humanos, mas também produções animadas e artísticas podem ser realizadas com a ferramenta. A Microsoft exemplifica essa possibilidade com um material animado da Monalisa.
De acordo com a companhia, a IA “gera vídeos com 512 X 512 [pixels] de tamanho a 45 fps (quadros por segundo) no modo de processamento offline e suporta até 40 fps no modo de streaming online”.
Responsabilidade de uso
No comunicado de apresentação do VASA, a Microsoft publicou considerações sobre os riscos de mau uso da ferramenta e destaca as aplicações positivas que a IA pode oferecer.
“Somos contra a qualquer comportamento que crie conteúdos enganosos ou prejudiciais de pessoas reais e estamos interessados em aplicar a nossa técnica para avançar na detecção de falsificações. Atualmente, os vídeos gerados por este método ainda contêm artefatos identificáveis, e a análise numérica mostra que ainda há uma lacuna para alcançar a autenticidade dos vídeos reais”, informa a Big Tech.
No entanto, a companhia acredita que há benefícios que valem o investimento no VASA, incluindo a ajuda para pessoas com dificuldades de comunicação e apoio terapêutico aos necessitados.
Porém, enquanto as preocupações sobre os riscos não forem resolvidas, a Microsoft não vai disponibilizar a IA para o público. “Não temos planos de lançar uma demo, o produto, uma API, detalhes adicionais de implementação ou quaisquer ofertas relacionadas até que tenhamos certeza de que a tecnologia será usada de forma responsável e de acordo com os regulamentos adequados”, reforça a companhia.