Facebook usa vídeos em primeira pessoa para treinar IA em rotinas humanas
Por Alveni Lisboa | Editado por Douglas Ciriaco | 14 de Outubro de 2021 às 14h26
O desafio dos projetos de visão computacional é fazer com que uma máquina enxergue e compreenda o mundo como um ser humano faria. O Facebook tem algumas iniciativas neste sentido, mas o Ego4D é o projeto mais recente e com enfoque nesta premissa, criado especialmente para montar um vasto conjunto de dados de treinamento dos modelos.
- "Mochila inteligente” usa IA da Intel para guiar deficientes visuais nas ruas
- Agências europeias questionam Facebook sobre privacidade de óculos inteligentes
- Cão-robô com IA do Facebook aprende sozinho como andar em diferentes ambientes
A ideia do Ego4D é gerar uma IA capaz de interpretar as mais de 2.200 horas de filmagem feita por 700 participantes de 13 universidades em nove países. Segundo a cientista-chefe de pesquisa do Facebook, Kristen Grauman, esta é a maior coleção de dados explicitamente criada para este foco: cada filme foi produzido sob a perspectiva de visão do usuário para dar à máquina as mesmas condições do ser humano.
As filmagens retratam experiências comuns da vida cotidiana de pessoas, como interações sociais, manipulação de objetos com as mãos e tarefas como cozinhar e arrumar a casa. O objetivo é associar isso aos algoritmos das redes sociais, no intuito de entregar melhores experiências de visão computacional sobre a ótica do espectador.
Os desenvolvedores também criaram cinco desafios de referência para o desenvolvimento de assistentes de IA mais inteligentes e úteis:
- Memória episódica: "o que aconteceu e quando?". É usado para recordar coisas como o local onde você deixou suas chaves ou uma ligação pendente de retorno.
- Previsão: "o que devo fazer a seguir?". Pode ser empregado no sentido de orientar ou alertar sobre algo que possa acontecer, como adicionar sal em excesso em uma receita ou esquecer o guarda-chuva com o tempo nublado.
- Manipulação de mãos e objetos: "o que estou fazendo?". A máquina deve conseguir identificar uma atividade e dar diretrizes: como tocar bateria ou um modo mais eficiente de cortar legumes.
- Registro cotidano: "quem disse o quê e quando?". A IA deve ser capaz de lembrar sobre o que foi a aula ou o que seu irmão disse mais cedo.
- Interação social: "quem está interagindo com quem?". O reconhecimento de pessoas não somente pela aparência, mas pela voz, trejeitos e outras características.
Expansão da IA
O Facebook pretende disponibilizar o conjunto de dados em novembro para os pesquisadores interessados em atuar em parceria com a Ego4D. Se os testes iniciais derem certo, é provável que a companhia estenda o experimento ao ambiente externo, para empresas especializadas em treinar máquinas que compreendam o que os seres humanos fazem rotineiramente.
Com a chegada dos modelos de óculos Ray Ban com câmeras do Facebook, esse projeto só tende a crescer porque será preciso interpretar os dados capturados para entregar uma experiência utilitária ao usuário. É claro que esse é um terreno muito delicado, já que a privacidade das pessoas está em jogo, mas as empresas modernas precisarão estar atentas a essa tecnologia se quiserem ser relevantes no futuro.
Fonte: Facebook