Sumário
Com o Stable Diffusion versão 2.0, o Stability AI se esforça para ser mais compatível legalmente e à prova de futuro. Duas mudanças importantes foram feitas.
Primeiro, a Stability AI removeu as imagens NSFW dos conjuntos de dados de treinamento para limitar sua geração. De acordo com Emad Mostaque, fundador da Stability AI, não se trata de censurar imagens NSFW em si, mas de proteção contra abuso infantil.
“Você não pode ter filhos e conteúdo NSFW em um modelo aberto”, escreve Mostaque no Discord. “Portanto, livre-se das crianças ou livre-se do NSFW.”
Esta decisão está atraindo críticas em partes da comunidade, que após o OpenAI (DALL-E, GPT-3 ) e meio da jornada agora também confronta Stability AI com acusações de censura e restrição da liberdade artística.
O modelo NSFW orientado para a comunidade “Unstable Diffusion”, por exemplo, quer romper com o básico Difusão estável modelo e está planejando uma campanha Kickstarter para modelos AI sem restrições.
As regras limitantes de empresas como Stability AI, OpenAI e Midjourney impedem que esses sistemas de IA se tornem ferramentas úteis. O pincel de um artista não está impedido de desenhar nada, nem as novas ferramentas que estão se tornando parte integrante do fluxo de trabalho da próxima geração de artistas.
Moderador do Discord de Difusão Instável
Mostaque responde aos críticos que, primeiro, Stable Diffusion pode ser ajustado com conteúdo NSFW (veja abaixo). Em segundo lugar, nenhum crítico poderia explicar de forma compreensível por que faria sentido publicar um modelo que incluísse conteúdo NSFW e imagens de crianças.
Os artistas não foram removidos seletivamente dos conjuntos de dados
Entre as críticas ao V2 está a sugestão de que o Stability AI restringiu o prompt com base nos nomes dos artistas ou removeu seus trabalhos do conjunto de dados para a nova versão do Stable Diffusion.
Após o lançamento, os usuários notaram que extensões de prompt populares, como “no estilo de Greg Rutkowski” não forneceu mais o resultado desejado , que foi uma imagem gerada que apareceu no estilo do artista de jogos Greg Rutkowski. Rutkowski foi um dos artistas que falou publicamente contra a cópia em massa de estilos individuais por IA e é frequentemente referenciado na cena de arte generativa de IA.
No entanto, Mostaque esclarece que os prompts para artistas não foram intencionalmente restringidos ou seus trabalhos removidos dos dados. Em vez disso, a mudança do modelo CLIP da OpenAI para Laion’s Open CLIP Vit-H14 mudou os resultados, diz ele.
Os modelos CLIP calculam embeddings de imagens e texto e comparam suas semelhanças, orientando assim a geração de imagens e sendo os principais responsáveis pelo resultado. No caso do modelo CLIP da OpenAI, o conjunto de dados subjacente era desconhecido, escreve Mostaque.
“A OpenAI tinha muitas celebridades e artistas, a LAION não. Portanto, se você os quiser, precisará ajustar novamente “, escreve Mostaque. Os usuários também tiveram que se acostumar com o prompt alterado com v2.
Ao mudar para o conjunto de dados LAION, Mostaque espera ter um melhor controle e mais transparência para futuras otimizações de Stable Diffusion, especialmente para ajustes finos. Além disso, a Stability AI poderia usar essa abordagem para oferecer uma opção de exclusão aos artistas no futuro.
Modelos de IA para a comunidade de código aberto
De acordo com Mostaque, é difícil remover o conteúdo treinado de um modelo. É muito mais fácil adicioná-lo, diz Mostaque, explicando o roteiro estratégico para novos lançamentos do Stable Diffusion.
Ele metaforicamente descreve o Stable Diffusion como uma base de pizza que a comunidade de código aberto pode derrubar ao seu gosto por meio de Ajuste fino do Dreambooth .
A explosão de modelos DreamBooth mostrou o quão poderosa é uma boa base com apenas algumas imagens. Você verá isso sendo empurrado com centenas, milhares e milhões de imagens para produzir modelos realmente interessantes que podemos juntar para criar qualquer coisa que as pessoas possam imaginar.
— Emad (@EMostaque) 25 de novembro de 2022
Mostaque promete “trancos e barrancos” de melhorias para o modelo de base Stable Diffusion nos próximos meses. O objetivo, diz ele, é fornecer à comunidade bases cada vez melhores para IA generativa. A Stability AI oferecerá seus próprios modelos para serviços comerciais com conteúdo licenciado.
Uma demonstração online gratuita do Stable Diffusion v2 está disponível em replicar ou você pode baixar os modelos completos em GithubGenericName .
Stability AI também está olhando para AI generativa para conteúdo 3D. A Mostaque revelou recentemente um holodeck de código aberto como a visão de longo prazo para sua inicialização.