Gen-1: Startup Stable Diffusion apresenta IA generativa para vídeo

O modelo Gen-1 da Runway permite que você edite visualmente o vídeo existente usando prompts de texto.

No ano passado, a Runway, uma startup de edição de vídeo de IA com sede em Nova York, ajudou a lançar Difusão estável uma IA de imagem de código aberto, em parceria com Stability AI, LMU Munich, Eleuther AI e Laion.

Agora está apresentando um novo modelo: “Gen-1” pode transformar visualmente vídeos existentes em novos. Uma porta de trem filmada de forma realista pode ser transformada em uma porta de trem semelhante a um desenho animado com um simples prompt de texto.

Um ator em um vídeo se torna um super-herói de desenho animado. Sua transformação é baseada em uma imagem de entrada. O modelo pode ser refinado com suas próprias imagens para transformações aprimoradas.

Níveis ainda mais altos de abstração são possíveis: a partir de alguns notebooks frouxamente montados, o Gen-1 pode renderizar um pano de fundo de uma grande cidade com arranha-céus por meio de comandos de texto. “É como filmar algo novo, sem filmar absolutamente nada”, escreve Runway.

1678746328 169 Gen 1 Startup Stable Diffusion apresenta IA generativa para video

O Gen-1 também pode isolar e modificar objetos em vídeo, transformando um golden retriever em um dálmata e aplicar texturas a objetos 3D não texturizados. As texturas também são criadas usando um prompt de texto.

Eine animierte Figur schwimmt unter Wasser.  Unten links sieht man klein im Bild eine blaue Version dieser Figur ohne Texturen.  Die Textur groß im Bild, eine dunkle Farbe mit Goldstaub und das gerenderte Wasser, wurden vom System nur per Textbefehl hinzugefügt.

Runway espera progresso rápido na edição de vídeo AI

Vídeos editados por IA ainda não podem competir com vídeos editados profissionalmente. Eles contêm erros de imagem, geometrias distorcidas ou simplesmente parecem falsos e irreais. Mas o projeto ainda está em sua infância.

“Os sistemas de IA para síntese de imagem e vídeo estão rapidamente se tornando mais precisos, realistas e controláveis”, escreve a startup.

Vídeo: Pista

Considerando a tremendo progresso que os sistemas de IA geradores de imagens fizeram nos últimos anos, é preciso pouca imaginação para imaginar que sistemas como o Gen-1 possam desempenhar um papel importante no processamento de vídeo em alguns anos.

Questão de código aberto ainda aberta

O Stable Diffusion ficou famoso principalmente por ser de código aberto e disponível gratuitamente na web. Para quem entende um pouco de informática e gosta de configurar software, é uma alternativa gratuita e sem censura para DALL-E 2 ou meio da jornada que também pode ser usado para aplicações.

De acordo com Ian Sansavera, arquiteto de fluxo de trabalho de vídeo da Runway, a startup ainda não tomou uma decisão sobre a questão do código aberto para o Gen-1. O software ainda está no “dia zero”, disse ele. Os interessados ​​podem inscreva-se em uma lista de espera , e o artigo científico será publicado em breve. Mais informações podem ser encontradas no página do projeto .

É provável que a Runway desenvolva o modelo principalmente para seu próprio software de vídeo. A startup é especializada em um editor de vídeo com inteligência artificial que visa simplificar e automatizar a edição de vídeo por meio de ferramentas de IA. No outono de 2022, o startup mostrou uma integração do Stable Diffusion em seu kit de ferramentas. A Runway foi fundada no início de 2018 e, desde então, levantou cerca de 100 milhões de investidores.

Além da pista, O Google está trabalhando em sistemas de IA de conversão de texto em vídeo que pode editar e gerar vídeo a partir do zero. Dreamix é especializado em edição de vídeo por meio de prompts de texto. Meta também introduziu um modelo de texto para vídeo com Make-a-Video .