Algoritmo criado pelo Alibaba vence humanos em teste de compreensão visual

Algoritmo criado pelo Alibaba vence humanos em teste de compreensão visual

Por Alveni Lisboa | Editado por Douglas Ciriaco | 24 de Agosto de 2021 às 18h13
Reprodução/Programaria.org

Um supercomputador rodando um algoritmo desenvolvido pela gigante chinesa do comércio eletrônico Alibaba conseguiu derrotar humanos em um teste visual. A máquina conquistou o primeiro lugar no desafio Visual Question Response (VQA), que mensura a capacidade de compreender imagens para responder a perguntas de texto.

A solução produzida pela Alibaba teve uma taxa de acertos de 81,26%, enquanto os humanos tiveram uma taxa de apenas 80,23% nas respostas. O desafio VQA é realizado desde 2015 como uma das atividades da Conference on Computer Vision and Pattern Recognition (Conferência sobre Visão Computacional e Reconhecimento de Padrões, em tradução livre).

Estes são alguns exemplos de imagens exibidas nos testes (Imagem: Reprodução/VQA.org)

O levantamento considerou mais de 250 mil imagens e 1,1 milhão de perguntas criadas a partir delas. Para cada imagem exibida, uma questão é relacionada e o participante precisa fornecer uma resposta imediata. Segundo o site South China Morning Post, a ferramenta da Alibaba derrotou também outros sistemas similares, incluindo uma solução de IA produzida pela Microsoft.

Quer ficar por dentro das melhores notícias de tecnologia do dia? Acesse e se inscreva no nosso novo canal no youtube, o Canaltech News. Todos os dias um resumo das principais notícias do mundo tech para você!

Embora o resultado possa parecer assustador, por instigar uma possível "revolução das máquinas", os desenvolvedores acreditam que essa tecnologia será usada apenas para otimizar o trabalho e a vida diária das pessoas, que poderão se concentrar em tarefas criativas em vez de realizar trabalhos manuais.

Visão computacional

Uma das áreas mais promissoras da tecnologia é o campo da chamada visão computacional, que compreende a capacidade de construção de sistemas artificiais que obtêm informação de imagens ou quaisquer dados multidimensionais. Por ser tão importante, a temática segue no centro das atenções das maiores empresas do mundo.

Algoritmos de visão computacional permitem a máquinas "enxergar" e interpretar imagens (Imagem: Reprodução/Huawei)

Aplicação na vida real

Esse tipo de tecnologia pode ter várias aplicações na vida das pessoas, como na geração de resultados para sites de comércio eletrônico, na localização geoespacial, no apoio a diagnósticos por imagem na medicina e para otimização de rotinas produtivas em indústrias. Por ter um potencial multissetorial, as empresas que desenvolvem soluções costumam trabalhar em conjunto para chegar a resultados mais satisfatórios.

O Alibaba afirma ter usado o VQA em vários cenários de aplicativos, como um chatbot inteligente usado por dezenas de milhares de comerciantes nas plataformas de varejo da companhia diariamente.

Já a Microsoft possui um programa de pesquisa específico para soluções assim chamado VQA Introspect. A equipe conta com sete estudiosos dedicados a criar algoritmos capazes de interpretar imagens e dar respostas corretas não somente com base em informações pré-estabelecidas, mas com o mínimo de raciocínio lógico.

O objetivo é fazer a máquina ir além da mera identificação para responder com coerência aos questionamentos (Imagem: Reprodução/Microsoft)

Por exemplo, na figura acima, os modelos da criadora do Windows respondem à complexa questão se a banana está madura o suficiente para comer, mas falha na pergunta de percepção associada à cor verde ou amarela. Isso indicaria, segundo a Microsoft, que o modelo provavelmente respondeu à pergunta de raciocínio corretamente, mas pelo motivo errado.

Fonte: South China Morning Post, Microsoft

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.