Facebook tem IA que “aprendeu” a navegar por escritório apenas usando vídeos

Por Rafael Arbulu | 03 de Junho de 2019 às 10h40
Tudo sobre

Facebook

Saiba tudo sobre Facebook

Ver mais

Um sistema de inteligência artificial que vem sendo desenvolvido por pesquisadores a serviço do Facebook aprendeu a navegar, sozinho, por um escritório utilizando apenas amostras de vídeos em perspectiva de primeira pessoa. De acordo com os especialistas, a evolução aconteceu bem mais rápido que o esperado e utilizando menos recursos.

A tecnologia vem sendo chamada de Talk The Walk e considera alguns algoritmos que o próprio Facebook abriu no ano passado no intuito de “ensinar” a inteligência artificial a navegar pelas ruas de Nova York. Aqui, os pesquisadores em questão utilizaram cerca de 45 mil amostras de interação com 1.500 ambientes, executando cerca de 30 ações aleatórias.

“Toda manhã, quando você decide levantar para pegar um café na cozinha, você pensa no processo de andar pelo corredor, virar à esquerda e em seguida entrar na cozinha à direita. Ao invés de decidir o movimento muscular exato necessário, você planeja essas ações em um nível superior, mais abstrato, compondo essas rotinas visuais submotoras com a sua mente para chegar ao seu objetivo”, explicaram os coautores da pesquisa. “Essas rotinas visuais permitem um planejamento que minimizam o conhecido problema do alto custo computacional nos planejamentos clássicos e alta complexidade de amostras no reforço do aprendizado”.

Participe do nosso Grupo de Cupons e Descontos no Whatsapp e garanta sempre o menor preço em suas compras de produtos de tecnologia.

Basicamente, o que isso quer dizer é: a inteligência artificial em questão não está pensando em “mover esta perna, depois a outra perna”, mas sim vendo pelos vídeos os humanos fazendo isso. Assim, o software pode se concentrar no objetivo final, que, no exemplo dado, seria o café. Lembra-se do termo “aprender por osmose”? É o mesmo conceito, só que com algoritmos e IA.

O programa foi dividido em duas fases: na primeira, os pesquisadores geraram “pseudorótulos” de ações empregados em um módulo treinado por dados aleatórios de exploração e autossupervisionado (“pseudorótulos", nesse contexto, são ações imaginadas pelo agente).

(Imagem: Reprodução/Venturebeat)

Já na segunda fase, cerca de 217 mil amostras de vídeo foram “picadas” em 2,2 milhões de clipes individuais e inseridos dentro do modelo de navegação. Tal modelo passou a prever ações correspondentes por meio das referências em vídeo, enquanto uma rede separada examinava a sequência de ações das referências e montava o comportamento como um vetor de ação.

Tudo isso para mostrar que, diante do aprendizado passivo de navegação, os resultados foram melhores do que o método de aprendizado envolvendo interações diretas. Mais além, os modelos aprenderam a rotina de trânsito de um escritório, favorecendo a movimentação para frente e evitando obstáculos, em uma velocidade de aprendizado até quatro vezes maior do que os métodos mais comuns.

“É particularmente notável que os modelos aprenderam de um total de 45 mil interações com o ambiente”, comentam os pesquisadores. “O aprendizado teve sucesso com o uso de vídeos em primeira pessoa, que permitiram ao agente executar trajetórias coerentes, mesmo que eles tenham desenvolvido ações meramente aleatórias. Mais além, eles se saíram melhor do que agentes que empregaram técnicas de aprendizado de ponta, que foram treinados em variados graus de magnitude e com um número maior de amostras de interações (45 mil versus 10 milhões)”.

Fonte: Venturebeat

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.