Sumário
Pesquisadores de IA manipulam rostos em vídeos de forma confiável e consistente com o StyleGAN2 da Nvidia. Deepfakes tornam-se assim ainda mais versáteis.
Generative Adversarial Networks (GANs) formam a base de muitos métodos atuais para geração e manipulação de imagens. Uma rede comumente usada é a StyleGAN da Nvidia, que foi lançada recentemente com algumas melhorias como StyleGAN3.
StyleGAN pode gerar imagens críveis de rostos, animais ou outros assuntos. Com ferramentas adicionais, a rede também pode manipular essas imagens. Um exemplo é o StyleCLIP, que usa o StyleGAN para gerar e manipular imagens com base em descrições de texto.
O StyleGAN anteriormente não era adequado para vídeos – isso agora está mudando
Embora gerar e manipular imagens individuais com inteligência artificial possa produzir resultados fotorrealistas, o processamento de vídeo continua sendo um grande desafio.
Por exemplo, imagens individuais podem ser geradas ou manipuladas e combinadas em um vídeo. Mas falta a coerência temporal de imagem para imagem: os penteados mudam, os olhos repentinamente olham em uma direção diferente ou a iluminação no rosto muda.
Para transferir os sucessos dos GANs, por exemplo, na edição de rostos, para vídeos, os GANs poderiam teoricamente ser treinados com vídeos – mas o projeto falha simplesmente devido à falta de vídeos de rostos de alta qualidade. Modelos como o Nvidia StyleGAN exigem dezenas de milhões de imagens para treinamento de IA.
Novo método usa StyleGAN para vídeos
Como mostra agora um novo método de pesquisadores de IA da Universidade de Tel Aviv, o treinamento em vídeo não é necessário – pelo menos para manipulação facial em videoclipes curtos. Em vez disso, a equipe conta com uma arquitetura StyleGAN estendida que explora a coerência temporal presente no vídeo original.
Primeiro, o sistema de IA separa o vídeo em quadros individuais para esse fim, dos quais o rosto é recortado e alinhado horizontalmente. Em seguida, um modelo StyleGAN2 com um codificador e4e gera uma cópia para cada face dentro da rede. As cópias são ajustadas com os originais para corrigir imprecisões e garantir a coerência.
Vídeo: Tzaban et al
Em seguida, as cópias são editadas conforme desejado – um sorriso é adicionado, um personagem é rejuvenescido ou envelhecido. Na penúltima etapa, os rostos resultantes e seus planos de fundo são costurados e finalmente mesclados em um novo vídeo.
Vídeo: Tzaban et al
Os resultados são impressionantes, assim como o desempenho: um único vídeo pode ser computado em cerca de 1,5 horas em uma Nvidia RTX 2080. Os pesquisadores ainda querem corrigir pequenos erros existentes, como tranças ausentes ou características faciais instáveis, no futuro, para exemplo, com o uso de StyleGAN3.
Vídeo: Tzaban et al
Mais informações, bem como exemplos e em breve o código, estão disponíveis no página do projeto “Stitch it in Tempo” .
Leia mais sobre IA:
- Nvidia e Stanford mostram 3D GAN para melhores imagens falsas
- Inteligência artificial geral: “Não temos nada”
- Meta mostra algoritmo de aprendizado para IA multitarefa