Nvidia 3D MoMa: Neural Inverse Rendering transforma fotos em objetos 3D

O 3D MoMa da Nvidia gera um modelo 3D completo a partir de pouco menos de 100 fotos em uma hora – incluindo texturas e iluminação.

Avanços no uso de inteligência artificial para computação gráfica permitem que sistemas correspondentes aprendam representações 3D a partir de fotos 2D que podem superar abordagens clássicas como a fotogrametria.

Os chamados Neural Radiance Fields (NeRFs) fornecem resultados particularmente impressionantes. eles geram renderizações fotorrealistas de objetos , paisagens ou interiores para a visualização imersiva do Google .

Os NeRFs têm problemas, por exemplo, ao representar movimento ou quando um objeto 3D viável com malha, textura e iluminação deve ser criado a partir da representação da malha. Pesquisadores do Google, entre outros, estão tentando resolver o problema do movimento com HumanNeRF .

Para o segundo problema, já existem soluções iniciais, mas extrair um objeto 3D da rede neural ainda é tedioso.

MoMa 3D da Nvidia funciona sem NeRFs

Mas variantes eficientes da chamada renderização inversa – gerando modelos 3D tradicionais a partir de fotos – podem acelerar muito o fluxo de trabalho na indústria gráfica.

Pesquisadores em Nvidia agora está demonstrando 3D MoMa um método de renderização inversa neural que gera modelos 3D utilizáveis ​​significativamente mais rápido do que métodos alternativos – incluindo aqueles que usam NeRFs.

Em vez disso, o 3D MoMa da Nvidia aprende topologia, materiais e iluminação ambiente a partir de imagens 2D com malhas separadas, incluindo uma para texturas e outra que aprende campo de distância com sinal (SDF) de uma malha tetraédrica itinerante, entre outras coisas.

3D MoMa, portanto, gera diretamente um modelo 3D na forma de malhas triangulares e materiais texturizados, que podem ser editados em ferramentas 3D comuns. Ele precisa de cerca de uma hora em uma GPU Nvidia Tensor Core para o treinamento com cerca de 100 fotos.

Métodos alternativos que dependem de NeRFs geralmente requerem um ou mais dias de treinamento. Nvidia NeRF Instantâneo é significativamente mais rápido e aprende uma representação 3D em poucos minutos, mas não suporta decomposição de geometria, materiais e iluminação.

Vídeo: Nvidia

A renderização inversa é o “Santo Graal”

David Luebke, vice-presidente de pesquisa gráfica da Nvidia, vê o 3D MoMa como um passo importante para gerando modelos 3D rapidamente que os criativos podem importar, editar e estender sem limitações nas ferramentas existentes. A renderização inversa tem sido o “Santo Graal” da unificação da visão computacional e da computação gráfica, disse Luebke.

Para mostrar, os pesquisadores da Nvidia coletaram quase 100 fotos de cada um dos cinco instrumentos de bandas de jazz e usaram o pipeline 3D MoMa para criar e manipular modelos 3D deles.

Os resultados podem ser vistos no vídeo acima, e ainda não são perfeitos – mas outras melhorias estão por vir e podem em breve mudar o processo de modelagem tanto quanto o advento da fotogrametria já mudou.