Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

Inteligência artificial atinge desempenho "sobre-humano" jogando games de Atari

Por| 20 de Novembro de 2018 às 18h30

Link copiado!

Inteligência artificial atinge desempenho "sobre-humano" jogando games de Atari
Inteligência artificial atinge desempenho "sobre-humano" jogando games de Atari

A OpenAI, uma empresa de pesquisas com inteligência artificial sem fins lucrativos (apoiada por Elon Musk, Reid Hoffman, Peter Thiel e outros especialistas em tecnologia); juntamente da DeepMind, uma subsidiária da Google, conseguiram fazer com que máquinas aprendessem a jogar, apenas assistindo humanos fazerem o mesmo.

Apesar de parecer assustador, ao menos em teoria, o estudo combina duas abordagens de aprendizado com feedback humano, sendo a primeira baseada em demonstrações de especialistas e a segunda, preferências de trajetória. O resultado foi a rede neural alcançando um desempenho sobre-humano em dois dos nove jogos de Atari testados – Pong e Enduro – e vencendo modelos básicos do projeto, nos outros sete.

A equipe de pesquisas afirmou que “para resolver problemas complexos do mundo real com o aprendizado reforçado”, eles não confiaram em “em funções de recompensa especificadas manualmente”. Ao invés disso, os pesquisadores fizeram com que os humanos se comunicassem com o sistema (ou agente) de inteligências artificiais, diretamente, repassando o objetivo.

Esta técnica é conhecida como “aprendizagem reforçado inverso” e é ideal para ações que envolvem objetos mal definidos e que podem desarmar sistemas artificialmente inteligentes (AI), já que ela usa de recompensas ou punições para direcionar softwares para atingir metas específicas – apesar do método não ser muito útil se não existir um mecanismo de feedback.

Continua após a publicidade

Os agentes de IA criados para jogar pelos pesquisadores, portanto, não apenas imitavam o comportamento humano, mas também combinavam várias formas de feedback, incluindo imitar demonstrações de especialistas, seguindo um modelo de recompensas que usava preferências de trajetória. Isso significa que o software tentou imitar da melhor maneira possível o humano baseando-se no feedback dele, imitando as demonstrações e maximizando a função de recompensa pretendida.

Para efeito de comparação, caso a IA apenas imitasse o comportamento humano, sem feedbacks, demonstrações ou recompensas, ela não evoluiria porque um especialista humano teria sempre de ensiná-la como realizar tarefas especificas e, assim, o software nunca alcançaria um desempenho significativamente melhor do que a dos pesquisadores.

Dado isso, o método foi aplicado em duas partes: a DeepMind usou uma rede profunda de aprendizado Q para alcançar um desempenho sobre-humano no Atari 2600, e também um sistema de recompensas em uma rede neural convolucional treinada para seguir as indicações de um observador – humano ou sistema sintético – durante o treinamento de tarefas. Com isso, os agentes de IA aprenderam ao longo do tempo tanto com as demonstrações quanto com a experiência.

Continua após a publicidade

Ao mesmo tempo, os pesquisadores conseguiram evitar que as IAs explorassem outras formas de recompensas que poderiam prejudicar seus desempenhos – um fenômeno conhecido como “recompensa por hacking”.

Então, para que os testes com jogos fossem aplicados, os pesquisadores definiram modelos de agentes de IA no Arcade Learning Environment, uma estrutura de código aberto onde os softwares são projetados para jogar games de Atari 2600 – segundo os especialistas, os títulos desse videogame têm a vantagem de serem propícios para o aprendizado reforçado e fornecerem funções de recompensa bem específicas.

Por fim, após 50 milhões de etapas e a conclusão de um cronograma com 6.800 instruções, os agentes de IA treinados com este método superaram os modelos básicos (no caso, os que puramente aprenderam por imitação) em todos os jogos testados, exceto Private Eye. Os demais games eram: Beamrider, Breakout, Enduro, Pong, Q*bert e Seaquest.

Continua após a publicidade

Para jogos específicos, como Hero, Montezuma’s Revenge e Private Eye, porém, as demonstrações humanas ajudaram muito, e geralmente reduziam pela metade a quantidade de tempo necessária para atingir o mesmo nível de desempenho.

O estudo com métodos de feedback segue a pesquisa da OpenAI com uma inteligência artificial que poderia ser melhor que os humanos jogando Montezuma’s Revenge. Quando este sistema foi solto em Super Mario, desbravaram 11 fases e chefes, além de algumas salas secretas. Depois, quando colocada para jogar Pong com um humano, os pesquisadores tentaram prolongar o game ao invés de vencer. Em junho desse ano, houve ainda o robô desenvolvido pela OpenAI que conseguia derrotar jogadores profissionais de Dota 2 - apesar do time brasileiro ter conseguido vencer a partida.

A pesquisa completa foi publicada e está disponível online, além de ter sido submetida ao Sistema de Processamento de Informações Neurais (NIPS 2018), que está programado para ocorrer em Montreal, Canadá, durante a primeira semana de dezembro.

Fonte: Venture Beat