Algoritmo criado pelo Alibaba vence humanos em teste de compreensão visual
Por Alveni Lisboa | Editado por Douglas Ciriaco | 24 de Agosto de 2021 às 18h13
Um supercomputador rodando um algoritmo desenvolvido pela gigante chinesa do comércio eletrônico Alibaba conseguiu derrotar humanos em um teste visual. A máquina conquistou o primeiro lugar no desafio Visual Question Response (VQA), que mensura a capacidade de compreender imagens para responder a perguntas de texto.
- Tecnologia autônoma que identifica tiros erra e faz homem ser preso injustamente
- Inteligência artificial vê vídeos e aprende a antecipar comportamentos humanos
- Dedo robótico revolucionário que consegue "sentir" objetos enterrados
A solução produzida pela Alibaba teve uma taxa de acertos de 81,26%, enquanto os humanos tiveram uma taxa de apenas 80,23% nas respostas. O desafio VQA é realizado desde 2015 como uma das atividades da Conference on Computer Vision and Pattern Recognition (Conferência sobre Visão Computacional e Reconhecimento de Padrões, em tradução livre).
O levantamento considerou mais de 250 mil imagens e 1,1 milhão de perguntas criadas a partir delas. Para cada imagem exibida, uma questão é relacionada e o participante precisa fornecer uma resposta imediata. Segundo o site South China Morning Post, a ferramenta da Alibaba derrotou também outros sistemas similares, incluindo uma solução de IA produzida pela Microsoft.
Embora o resultado possa parecer assustador, por instigar uma possível "revolução das máquinas", os desenvolvedores acreditam que essa tecnologia será usada apenas para otimizar o trabalho e a vida diária das pessoas, que poderão se concentrar em tarefas criativas em vez de realizar trabalhos manuais.
Visão computacional
Uma das áreas mais promissoras da tecnologia é o campo da chamada visão computacional, que compreende a capacidade de construção de sistemas artificiais que obtêm informação de imagens ou quaisquer dados multidimensionais. Por ser tão importante, a temática segue no centro das atenções das maiores empresas do mundo.
Aplicação na vida real
Esse tipo de tecnologia pode ter várias aplicações na vida das pessoas, como na geração de resultados para sites de comércio eletrônico, na localização geoespacial, no apoio a diagnósticos por imagem na medicina e para otimização de rotinas produtivas em indústrias. Por ter um potencial multissetorial, as empresas que desenvolvem soluções costumam trabalhar em conjunto para chegar a resultados mais satisfatórios.
O Alibaba afirma ter usado o VQA em vários cenários de aplicativos, como um chatbot inteligente usado por dezenas de milhares de comerciantes nas plataformas de varejo da companhia diariamente.
Já a Microsoft possui um programa de pesquisa específico para soluções assim chamado VQA Introspect. A equipe conta com sete estudiosos dedicados a criar algoritmos capazes de interpretar imagens e dar respostas corretas não somente com base em informações pré-estabelecidas, mas com o mínimo de raciocínio lógico.
Por exemplo, na figura acima, os modelos da criadora do Windows respondem à complexa questão se a banana está madura o suficiente para comer, mas falha na pergunta de percepção associada à cor verde ou amarela. Isso indicaria, segundo a Microsoft, que o modelo provavelmente respondeu à pergunta de raciocínio corretamente, mas pelo motivo errado.
Fonte: South China Morning Post, Microsoft