O 3D MoMa da Nvidia gera um modelo 3D completo a partir de pouco menos de 100 fotos em uma hora – incluindo texturas e iluminação.
Avanços no uso de inteligência artificial para computação gráfica permitem que sistemas correspondentes aprendam representações 3D a partir de fotos 2D que podem superar abordagens clássicas como a fotogrametria.
Os chamados Neural Radiance Fields (NeRFs) fornecem resultados particularmente impressionantes. eles geram renderizações fotorrealistas de objetos , paisagens ou interiores para a visualização imersiva do Google .
Os NeRFs têm problemas, por exemplo, ao representar movimento ou quando um objeto 3D viável com malha, textura e iluminação deve ser criado a partir da representação da malha. Pesquisadores do Google, entre outros, estão tentando resolver o problema do movimento com HumanNeRF .
Para o segundo problema, já existem soluções iniciais, mas extrair um objeto 3D da rede neural ainda é tedioso.
MoMa 3D da Nvidia funciona sem NeRFs
Mas variantes eficientes da chamada renderização inversa – gerando modelos 3D tradicionais a partir de fotos – podem acelerar muito o fluxo de trabalho na indústria gráfica.
Pesquisadores em Nvidia agora está demonstrando 3D MoMa um método de renderização inversa neural que gera modelos 3D utilizáveis significativamente mais rápido do que métodos alternativos – incluindo aqueles que usam NeRFs.
Em vez disso, o 3D MoMa da Nvidia aprende topologia, materiais e iluminação ambiente a partir de imagens 2D com malhas separadas, incluindo uma para texturas e outra que aprende campo de distância com sinal (SDF) de uma malha tetraédrica itinerante, entre outras coisas.
3D MoMa, portanto, gera diretamente um modelo 3D na forma de malhas triangulares e materiais texturizados, que podem ser editados em ferramentas 3D comuns. Ele precisa de cerca de uma hora em uma GPU Nvidia Tensor Core para o treinamento com cerca de 100 fotos.
Métodos alternativos que dependem de NeRFs geralmente requerem um ou mais dias de treinamento. Nvidia NeRF Instantâneo é significativamente mais rápido e aprende uma representação 3D em poucos minutos, mas não suporta decomposição de geometria, materiais e iluminação.
Vídeo: Nvidia
A renderização inversa é o “Santo Graal”
David Luebke, vice-presidente de pesquisa gráfica da Nvidia, vê o 3D MoMa como um passo importante para gerando modelos 3D rapidamente que os criativos podem importar, editar e estender sem limitações nas ferramentas existentes. A renderização inversa tem sido o “Santo Graal” da unificação da visão computacional e da computação gráfica, disse Luebke.
Para mostrar, os pesquisadores da Nvidia coletaram quase 100 fotos de cada um dos cinco instrumentos de bandas de jazz e usaram o pipeline 3D MoMa para criar e manipular modelos 3D deles.
Os resultados podem ser vistos no vídeo acima, e ainda não são perfeitos – mas outras melhorias estão por vir e podem em breve mudar o processo de modelagem tanto quanto o advento da fotogrametria já mudou.