Inteligência artificial começa a converter imagens 2D em 3D

Por Fidel Forato | 12/12/2019 às 19:30

Compartilhe:

Tudo sobre Nvidia

Já imaginou tirar uma foto de um animal e, a partir da imagem capturada, descobrir mais ângulos e detalhes dessa criatura, como o tamanho da sua cauda? Essa história mais parece ficção científica, até porque prever a anatomia de um ser vivo envolveria, inclusive, uma série de variantes biológicas. Entender, por exemplo, se uma cauda maior faria sentido para aquele ser, de acordo com a Evolução das Espécies, é algo realmente complexo.

Até agora, os softwares com machine learning precisavam de mecanismos que aumentassem sua profundidade, como o sistema de câmera traseira dupla. Só que, agora, os pesquisadores da Nvidia desenvolveram uma nova estrutura para renderização de imagens, chamada de DIB-R, que produz objetos 3D a partir de imagens 2D. O mais incrível é que todo esse processo leva menos de 100 milissegundos.

Impactos da tecnologia

“Imagine que você pode tirar uma foto e sair um modelo 3D, o que significa que agora você pode olhar para a cena capturada de todos os tipos de pontos de vista diferentes. Você pode, potencialmente, entrar nela, vê-la de diferentes ângulos”, explica Sanja Fidler, co-autora do projeto da Nvidia.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Os pesquisadores da Nvidia treinaram seu modelo em vários conjuntos de dados, incluindo uma coleção de imagens de pássaros. Após o treinamento, o DIB-R foi capaz de transformar uma imagem de um pássaro e produzir uma representação em 3D com a forma e a textura adequadas de um pássaro real.

O invento também pode ser usado para transformar imagens 2D de animais extintos há muito tempo, como um tiranossauro rex ou um pássaro dodo, em uma imagem 3D realista, em menos de um segundo.

"Esta é essencialmente a primeira vez que você pode capturar praticamente qualquer imagem 2D e prever propriedades 3D relevantes", diz Jun Gao, membro de uma equipe de pesquisadores que colaborou no DIB-R.

Em tarefas mais complexas, a invenção também pode ser aplicada, como no desenvolvimento de novos jogos e, principalmente, na robótica. Com a ferramenta, um robô autônomo poderá interagir com segurança e eficiência com seu ambiente, sendo capaz de "sentir" e entender seus arredores, com uma nova percepção de profundidade.

Outros casos

O Facebook AI Research e o DeepMind, do Google, também criaram softwares capazes de transformar imagens 2D em 3D, mas o DIB-R é uma das primeiras arquiteturas de aprendizado neural que pode capturar imagens bidimensionais, prevendo propriedades 3D importantes, como forma, geometria 3D, cor e textura do objeto, segundo argumenta Fidler.

“Existem alguns trabalhos anteriores, mas nenhum deles realmente foi capaz de prever todas essas propriedades importantes juntas. Eles estão focando apenas em prever a geometria ou talvez a cor, mas não forma, cor, textura e luz”, conclui.

Continua após a publicidade

Fonte: VentureBeat via NVIDIA