Sumário
Sistemas generativos de IA, como o Stable Diffusion, exigem retreinamento caro para aprender novos conceitos. O Re-Imagen do Google adota uma abordagem mais eficiente.
OpenAI’s DALL-E 2 ou meio da jornada gerar imagens de alta qualidade baseadas em texto. Suas capacidades generativas, no entanto, são limitadas a objetos ou estilos que fazem parte dos dados de treinamento das empresas.
Uma alternativa popular é, portanto, o modelo Open-Source Difusão estável . Ele é executado localmente na placa gráfica do usuário ou na nuvem e – graças a algumas técnicas de ajuste fino – pode aprender novos conceitos, como estilos, objetos ou pessoas, desde que os recursos de hardware apropriados estejam disponíveis.
Tentativas iniciais usadas Inversão Textual como um método para pós-treinamento, mas o Dreambooth agora se tornou o padrão. O método desenvolvido pelo Google para personalizar grandes modelos de texto para imagem, como Imagen foi adaptado pela comunidade de código aberto para Stable Diffusion.
A Stable Diffusion pode ser personalizada com suas próprias imagens, mas é uma abordagem trabalhosa
O Dreambooth permite que você personalize o Stable Diffusion de acordo com suas próprias necessidades com amostras de imagens. O método alcança bons resultados com apenas algumas imagens. Embora os requisitos de hardware fossem extremos no início, as versões otimizadas do Dreambooth podem ser executadas com placas de vídeo Nvidia com 10 gigabytes de VRAM.
O Dreambooth está se tornando popular por criar modelos personalizados de Stable Diffusion usando suas imagens.
Aqui está um tópico amigável para iniciantes sobre como funciona: ? pic.twitter.com/jlLdOqbWBf
– Divam Gupta (@divamgupta) 1º de novembro de 2022
No artigo do Dreambooth, o Google compara o DALL-E 2 e o Imagen para mostrar como o método permite que um modelo de IA generativo aprenda, digamos, um novo mostrador de relógio para um despertador.
Os resultados são impressionantes e várias pessoas no Twitter estão compartilhando exemplos de como o Dreambooth pode ser amplamente usado. Assim, o Dreambooth resolve um problema-chave dos modelos de IA generativos : muitas vezes lutam para gerar imagens de objetos ou estilos incomuns e desconhecidos. Mas o método não é necessariamente escalável, pois cada conceito requer treinamento computacional intensivo.
O Re-Imagen do Google mostra uma alternativa escalável ao Dreambooth
Um grupo no Google agora está demonstrando o Gerador de conversão de texto em imagem aprimorada por recuperação (Re-Imagen). Este novo método permite que um modelo de IA generativo gere imagens de objetos raros ou nunca antes vistos.
Como o nome (Recuperação Aumentada) indica, o Re-Imagen recupera novas informações de um banco de dados externo em vez de ser treinado novamente com dados adicionais.
Dado um prompt de texto, o Re-Imagen acessa uma base de conhecimento multimodal externa para recuperar pares relevantes (imagem, texto) e os usa como referências para gerar a imagem.
do papel
O Re-Imagen recupera informações semânticas e visuais sobre objetos desconhecidos ou raros por meio da entrada adicional, melhorando sua precisão na geração de imagens.
Para conseguir isso, a equipe do Google treinou o Re-Imagen com um novo conjunto de dados que inclui três modalidades (imagem, texto e recuperação). Assim, o modelo aprendeu a usar entrada de texto e recuperações do banco de dados externo por uma geração.
Em alguns exemplos, o Google mostra que Re-Imagen alcança resultados significativamente melhores para objetos raros ou desconhecidos do que Imagen, DALL-E 2 ou Stable Diffusion.
No entanto, o novo método também tem desvantagens:
Primeiro, porque o Re-Imagen é sensível aos pares imagem-texto recuperados aos quais está condicionado, quando a imagem recuperada é de baixa qualidade, haverá uma influência negativa na imagem gerada. Em segundo lugar, o Re-Imagen às vezes ainda falha ao se basear nas entidades recuperadas quando a aparência visual da entidade está fora do espaço de geração. Em terceiro lugar, notamos que o modelo de super-resolução é menos eficaz e frequentemente perde detalhes de textura de baixo nível das entidades visuais.
do papel
A equipe planeja investigar mais essas limitações e abordá-las em trabalhos futuros.