A difusão de movimento transforma o texto em animações humanas realistas

A difusão de movimento pode criar animações humanas de aparência natural a partir de várias entradas, como texto, ações ou animações existentes.

Até agora, 2022 é o ano dos sistemas generativos de IA que criam novas mídias a partir do texto: DALL-E 2 , meio da jornada , Imagen ou Difusão estável produzir imagens fotorrealistas ou artísticas. Faz um video e Vídeo de imagem produzir videoclipes curtos, AudioGen e AudioLM Audio, e CLIP-Mesh e fusão dos sonhos criar modelos 3D a partir de texto.

Agora, em um novo artigo, os pesquisadores da Universidade de Tel Aviv voltam sua atenção para a geração de movimento humano. Seu Motion Diffusion Model (MDM) pode, entre outras coisas, gerar animações correspondentes baseadas em texto.

“O santo graal da animação por computador”

A geração automatizada de movimentos naturais e expressivos é o santo graal da animação por computador, de acordo com os pesquisadores. A grande variedade de movimentos possíveis e a capacidade dos humanos de perceber até mesmo pequenas falhas como não naturais são os maiores desafios, dizem os pesquisadores.

A marcha de uma pessoa de A para B inclui algumas características repetitivas. Mas existem inúmeras variações na execução exata dos movimentos.

Além disso, os movimentos são difíceis de descrever: um chute, por exemplo, pode ser um chute de futebol ou um chute de karatê.

Os modelos de difusão usados ​​nos sistemas de imagem atuais, como o DALL-E 2, demonstraram capacidades e variabilidade generativas notáveis, tornando-os uma boa escolha para o movimento humano, escreve a equipe. Para o MDM, os pesquisadores contaram com um modelo de difusão e uma arquitetura transformadora.

O modelo de difusão de movimento é versátil e supera os modelos especializados

O modelo dos pesquisadores é uma estrutura genérica adequada para várias formas de entrada. Em seu trabalho, eles mostram exemplos de text-to-motion, action-to-motion e conclusão e manipulação de animações existentes.

Em uma tarefa de texto em movimento, o MDM gera uma animação que corresponde a uma descrição de texto. Graças ao modelo de difusão, o mesmo prompt gera diferentes variantes.

“Uma pessoa chuta.” | Vídeo: Tevet et al.

“Uma pessoa chuta.” | Vídeo: Tevet et al.

“uma pessoa vira para a direita e anda de um lado para o outro.” | Vídeo: Tevet et al.

Na tarefa de ação para movimento, o MDM gera animações que correspondem a uma determinada classe de movimento, como “sentar” ou “andar”.

(Turma) Executar | Vídeo: Tevet et al.

Além disso, o modelo pode concluir ou editar movimentos. Os pesquisadores comparam seu método com pintura interna que permite aos usuários marcar partes de uma imagem em DALL-E 2 ou Stable Diffusion e alterá-las por meio de descrição de texto.

(Azul=Entrada, Dourado=Síntese) | Vídeo: Tevet et al.

Durante uma edição, partes individuais do corpo podem ser animadas seletivamente, enquanto outras não se movem ou retêm sua animação original.

Edição da parte superior do corpo (a parte inferior do corpo é fixa) (Azul=Entrada, Dourado=Síntese) | Vídeo: Tevet et al.

Em benchmarks, o MDM está à frente de outros modelos generativos de movimento, escrevem os pesquisadores. Atualmente, gerar uma animação leva cerca de um minuto em uma GPU Nvidia GeForce RTX 2080 Ti. O treinamento do modelo durou cerca de três dias.

No futuro, a equipe quer explorar maneiras de controlar ainda melhor as animações e, assim, expandir o leque de aplicações do sistema de IA. o código e modelo para MDM estão disponíveis no GitHub .