CLIP-Mesh: IA gera modelos 3D a partir de descrições de texto

Um novo sistema generativo de IA gera modelos 3D a partir de uma descrição de texto. Os modelos podem ser usados ​​diretamente em motores gráficos comuns.

Modelos de IA generativos, como DALL-E 2 da OpenAI , meio da jornada ou Difusão estável produzir imagens impressionantes de quase todos os estilos. A única entrada necessária é um prompt de texto que descreve o resultado desejado. As ferramentas gráficas AI aceleram os processos de trabalho existentes, mas também podem criar obras de arte quase completas.

A tecnologia pode, portanto, ser um dos primeiros exemplos do impacto da IA ​​no mercado de trabalho, diz o fundador da OpenAI, Sam Altman. Como mostra o caso de Jason Allen, cujo A arte da IA ​​ganhou uma competição de arte já está causando problemas entre artistas e designers.

Fora do domínio da arte e design 2D, um pequeno grupo de pesquisadores está trabalhando em uma nova classe de sistemas de IA generativos que têm grande potencial para revolucionar toda uma indústria: sistemas de IA generativos para modelos 3D.

No final de 2021, o Google apresentou o Dream Fields, um modelo de IA para gerar renderização 3D. O Dream Fields combina o CLIP da OpenAI com um gerador NeRF, que pode produzir NeRFs simples com base em descrições de texto.

O método do Google, no entanto, leva mais de um dia por NeRF e é computacionalmente intensivo. Além disso, os NeRFs não podem ser transformados diretamente em modelos de malha 3D. Esses modelos de malha formam a base da representação de quase todos os objetos 3D atuais, por exemplo, em videogames ou simulações.

CLIP-Mesh gera diretamente modelos de malha 3D

Em um novo trabalho de pesquisa da Concordia University, no Canadá, os pesquisadores agora demonstram o CLIP-Mesh, um modelo de IA generativo que gera diretamente modelos de malha 3D com texturas e mapas normais a partir de descrições de texto.

A equipe renderiza diferentes visualizações de um modelo simples, como uma esfera. Esta esfera é criada por um renderizador a partir do mapa de textura, mapa normal e vértices da malha.

As imagens são codificadas por um codificador de imagem CLIP e comparadas com a entrada de texto codificada pelo codificador de texto CLIP. Além disso, essa entrada de texto codificado é transformada em uma imagem incorporada por um modelo de difusão, cuja saída também é usada para uma função de perda.

O CLIP-Mesh então ajusta o mapa de textura, o mapa normal e os vértices do modelo de malha alimentados ao renderizador de acordo com o feedback do codificador de texto e do modelo de difusão.

1675196873 314 CLIP Mesh IA gera modelos 3D a partir de descricoes de

Em experimentos iniciais, a equipe usa uma esfera com 600 vértices e uma textura e resolução de mapa normal de 512 por 512 Pixels. Com esses dados, CLIP-Mesh gera um modelo 3D em 50 minutos em uma Nvidia P100 com 16 gigabytes de memória gráfica. A forma dos modelos possíveis é limitada pelos vértices originais – formas excessivamente variáveis ​​não podem surgir de uma esfera, dizem os pesquisadores.

IAs generativas para modelos 3D são apenas uma questão de tempo

Em um pequeno vídeo, a equipe mostra uma pequena sala completa com modelos 3D gerados. Os resultados são claramente reconhecíveis como objetos e podem ser facilmente usados ​​em um mecanismo que processa malhas 3D. CLIP-Mesh texturiza os modelos para combinar.

Vídeo: Khalid et al.

O CLIP-Mesh também pode ser usado para editar vários objetos. Por exemplo, uma superfície pode ser texturizada e, ao mesmo tempo, um modelo sobre ela pode ser completamente alterado.

1675196874 340 CLIP Mesh IA gera modelos 3D a partir de descricoes de

Teoricamente, o CLIP-Mesh já pode ser usado de várias maneiras – mesmo que os modelos de malha 3D produzidos estejam longe da qualidade da modelagem 3D manual.

Uma vantagem potencialmente grande: a equipe de pesquisa não precisou de seu próprio banco de dados 3D para o modelo, graças ao uso do CLIP. Potencialmente, isso pode levar a novos sistemas de IA generativos para modelos 3D que usam conjuntos de dados abrangentes para sistemas de imagem e não requerem dados adicionais. Os pesquisadores agora querem investigar até que ponto essa abordagem dará frutos no futuro.

Se os modelos generativos de IA para objetos 3D apresentarem uma velocidade de desenvolvimento semelhante à dos sistemas 2D, empresas especializadas nessa área, como a OpenAI, poderão apresentar já no ano que vem modelos que vão levantar muita poeira em outro mercado de trabalho: programação 3D e Projeto.