Sumário
O Make-A-Video3D da Meta gera cenas 3D dinâmicas a partir de descrições de texto que também são executadas em tempo real em mecanismos 3D.
Depois de texto e imagens, os modelos generativos de IA em breve sintetizarão vídeos e objetos 3D. Modelos como Faz um video , Vídeo de imagem , fenaki para vídeo e 3DiM , fusão dos sonhos ou MCC para 3D mostram métodos possíveis e já geram alguns resultados impressionantes.
Meta agora mostra um método que combina vídeo e 3D: Make-A-Video3D (MAV3D) é um modelo generativo de IA que gera cenas dinâmicas tridimensionais a partir de descrições de texto.
O Make-A-Video3D da Meta depende de NeRFs.
Em setembro de 2022, o Google apresentou o Dreamfusion, um modelo de IA que aprende representações 3D a partir de descrições de texto na forma de Neural Radiance Fields (NeRFs). Para isso, o Google combinou NeRFs com o grande modelo de imagem Imagen: ele gera imagens correspondentes ao texto, que servem como sinais de aprendizado para o NeRF.
O Meta adota uma abordagem semelhante com o MAV3D: uma variante NeRF (HexPlane) adequada para cenas dinâmicas gera uma sequência de imagens a partir de uma sequência de posições de câmera.
Estes são passados como vídeo junto com um prompt de texto para o modelo de vídeo Make-A-Video (MAV) da Meta, que pontua o conteúdo fornecido pelo HexPlane com base no prompt de texto e outros parâmetros.
A pontuação é então usada como um sinal de aprendizado para o NeRF, que ajusta seus parâmetros. Em várias passagens, ele aprende uma representação que corresponde ao texto.
O conteúdo MAV3D pode ser renderizado em tempo real
Por exemplo, MAV3D gera representações 3D de um gato cantando, um bebê panda comendo sorvete ou um esquilo tocando saxofone. Não há atualmente nenhum modelo qualitativamente comparável, mas os resultados mostrados pelo Meta correspondem claramente aos prompts de texto.
Vídeo: meta
O modelo HexPlane aprendido também pode ser convertido em malhas animadas, diz a equipe. O resultado poderia então ser renderizado em qualquer mecanismo 3D padrão em tempo real – e, portanto, seria adequado para aplicações em realidade virtual ou em videogames clássicos. No entanto, o processo ainda é ineficiente, e a equipe busca aprimorá-lo – assim como a resolução das cenas.
Mais exemplos de vídeo e renderizações estão disponíveis no página do projeto MAV3D . O modelo e o código não estão disponíveis.