Sumário
Applemostra seu mais recente sistema AI GAUDI. Ele pode gerar cenas internas 3D e é a base para uma nova geração de IA generativa baseada em NeRFs.
A chamada renderização neural traz inteligência artificial para computação gráfica: pesquisadores de IA da A Nvidia, por exemplo, está mostrando como objetos 3D são criados a partir de fotos e Google está contando com Neural Radiance Fields (NeRFs) para visualização imersiva ou desenvolvendo NeRFs para renderizar pessoas .
Até agora, os NeRFs são usados principalmente como uma espécie de meio de armazenamento neural para modelos 3D e cenas 3D, que pode ser renderizado a partir de diferentes perspectivas de câmera. É assim que são criados os movimentos de câmera frequentemente exibidos em uma sala ou ao redor de um objeto. Experimentos iniciais com NeRFs para experiências de realidade virtual também estão em andamento.
Os NeRFs podem se tornar o próximo estágio da inteligência artificial generativa
Mas e se a capacidade do NeRF de renderizar imagens fotorrealisticamente e de diferentes ângulos pudesse ser usada para IA generativa? sistemas de IA como DALL-E 2 da OpenAI ou Imagem do Google e partido mostram o potencial da IA generativa controlável, mas apenas para imagens e gráficos 2D.
O Google deu o primeiro vislumbre da geração de IA 3D no final de 2021 com o Dream Fields, um sistema de IA que combina a capacidade do NeRF de gerar visualizações 3D com a capacidade do CLIP do OpenAI de avaliar o conteúdo das imagens. O resultado: Dream Fields gera NeRFs que correspondem às descrições de texto.
Agora Apple A equipe de IA da está apresentando GAUDI, uma arquitetura neural para geração de cena 3D imersiva. O sistema AI pode criar cenas 3D com base em prompts de texto.
AppleGAUDI é especialista em interiores 3D
Enquanto o Google, por exemplo, se dedica a gerar objetos individuais com Dream Fields, estender AIs generativas para cenas 3D totalmente irrestritas continua sendo um problema ainda não resolvido.
Uma razão para isso é a limitação das posições possíveis da câmera: enquanto para um único objeto, todas as posições razoáveis possíveis da câmera podem ser mapeadas para uma cúpula, em cenas 3D essas posições da câmera são limitadas por obstáculos como objetos e paredes. Se estes não forem considerados durante a geração da cena, a cena 3D gerada não será utilizável.
Apple- O modelo GAUDI resolve esse problema com três redes especializadas: uma decodificador de pose de câmera faz previsões para possíveis posições de câmera e garante que a saída seja uma posição válida para a arquitetura da cena 3D.
o decodificador de cena pois a cena prevê uma representação triplanar, que é uma espécie de tela 3D na qual o decodificador de campo de radiação desenha a imagem subsequente usando a equação de renderização volumétrica.
Em experimentos com quatro conjuntos de dados diferentes, incluindo ARKitScences, um conjunto de dados de varreduras internas, os pesquisadores mostram que o GAUDI pode reconstruir visualizações aprendidas e corresponder à qualidade das abordagens existentes.
Vídeo: Miguel Ángel Bautista via Twitter
Appletambém demonstra que GAUDI pode gerar novos movimentos de câmera por meio de cenas internas em 3D. A geração pode ser aleatória, começar a partir de uma imagem ou ser controlada por entrada de texto com um codificador de texto – por exemplo, “passe pelo corredor” ou “suba as escadas”.
A qualidade do vídeo gerado pelo GAUDI ainda é baixa e repleta de artefatos. Mas com seu sistema de IA, Appleestá estabelecendo outra base para sistemas de IA generativos que podem renderizar objetos e cenas 3D. Uma aplicação possível: gerar localizações digitais para Apple fone de ouvido XR .
Ansioso para isso sair! Apresentando GAUDI: um modelo generativo para cenas internas 3D. Abordamos o problema de aprender um modelo generativo de cenas 3D parametrizadas como campos de radiância. Esta foi uma grande colaboração entre várias equipes da @Apple . https://t.co/aJOqtzA2CI https://t.co/tSkJdXK31C pic.twitter.com/ReeXAPGg95
– Miguel Ángel Bautista (@itsbautistam) 29 de julho de 2022