Sumário
Atualizado em 21 de agosto de 2022:
A Stable Diffusion agora está disponível por meio de uma interface da web. Após o login, você pode gerar imagens por meio de prompts de texto, semelhantes ao DALL-E 2, e ter várias opções adicionais para ajuste fino. Assim como no DALL-E 2, há restrições quanto a solicitações, como imagens sexuais ou violentas.
O modelo Stable Diffusion, que pode rodar localmente ou na nuvem, não terá mais essas restrições. Espera-se que o modelo seja lançado no Github nos próximos dias.
Você pode tentar o WebStable Diffusion gratuitamente. Pelo equivalente a pouco menos de $ 12, você pode comprar cerca de 1.000 prompts. O número real de prompts disponíveis depende da complexidade dos cálculos e da resolução da sua imagem.
Clique aqui para ir ao Dreamstudio a interface da web para Stable Diffusion.
O artigo original é datado de 14 de agosto de 2022:
O rival de código aberto do DALL-E da OpenAI é executado em sua placa de vídeo
O DALL-E 2 da OpenAI está recebendo competição gratuita. Por trás disso está um movimento de código aberto de IA e a startup Stability AI.
A inteligência artificial que pode gerar imagens a partir de descrições de texto vem progredindo rapidamente desde o início de 2021. Naquela época, a OpenAI mostrou resultados impressionantes com DALL-E 1 e CLIP. A comunidade de código aberto usou o CLIP para vários projetos alternativos ao longo do ano. Então, em 2022, a OpenAI lançou o impressionante DALL-E 2 o Google mostrou Imagen e partido , Midjourney alcançou milhões e Craiyon inundou as redes sociais com imagens de IA .
Startup Stability AI anunciou agora o lançamento de Difusão estável outro sistema semelhante ao DALL-E 2 que inicialmente será gradualmente disponibilizado para novos pesquisadores e outros grupos por meio de um servidor Discord.
Após uma fase de testes, o Stable Diffusion será lançado gratuitamente – o código e um modelo treinado serão publicados como código aberto. Haverá também uma versão hospedada com interface web para os usuários testarem o sistema.
Estabilidade AI financia concorrente DALL-E 2 gratuito
Stable Diffusion é o resultado de uma colaboração entre pesquisadores da Stability AI, RunwayML, LMU Munich, EleutherAI e LAION. O coletivo de pesquisa EleutherAI é conhecido por seus modelos de linguagem de código aberto GPT-J-6B e GPT-NeoX-20B entre outros, e também realiza pesquisas sobre modelos multimodais.
A organização sem fins lucrativos LAION (Large-scale Artificial Intelligence Open Network) forneceu os dados de treinamento com o conjunto de dados LAION 5B de código aberto, que a equipe filtrou com feedback humano em uma fase inicial de teste para criar o conjunto de dados de treinamento LAION-Aesthetics final.
Patrick Esser de Pista e Robin Rombach, da LMU Munich, lideraram o projeto, com base em seu trabalho no grupo CompVis da Universidade de Heidelberg. Lá, eles criaram o amplamente utilizado VQGAN e Difusão Latente . Este último serviu de base para a Stable Diffusion com pesquisas da OpenAI e do Google Brain.
“Robôs de jazz”. por TheRealBissy#StableDiffusion #AIArt #AIArtwork @StableDiffusion pic.twitter.com/V6hBWZUuM9
– Fotos de Stable Diffusion (@DiffusionPics) 14 de agosto de 2022
A Stability AI, fundada em 2020, é apoiada pelo matemático e cientista da computação Emad Mostaque. Ele trabalhou como analista para vários fundos de hedge por alguns anos antes de se dedicar ao trabalho público. Em 2019, ajudou a fundar o Symmitree, projeto que visa baratear o custo de smartphones e acesso à internet para populações carentes.
Com Stability AI e sua fortuna privada, Mostaque visa promover a comunidade de pesquisa de AI de código aberto. Sua startup apoiou anteriormente a criação do conjunto de dados “LAION 5B”, por exemplo. Para treinar o modelo de Stable Diffusion, a Stability AI forneceu servidores com 4.000 GPUs Nvidia A100.
“Ninguém tem direito a voto, exceto nossos 75 funcionários – nenhum bilionário, grandes fundos, governos ou qualquer outra pessoa com controle da empresa ou das comunidades que apoiamos. Somos completamente independentes”, disse Mostaque ao TechCrunch. “Planejamos usar nossa computação para acelerar a IA fundamental de código aberto.”
Stable Diffusion é um marco de código aberto
Atualmente, está em andamento um teste de Stable Diffusion, com novas adições sendo distribuídas em ondas. Os resultados, que podem ser vistos no Twitter, por exemplo, mostram que um verdadeiro concorrente do DALL-E-2 está surgindo por aqui.
Ao contrário do DALL-E 2, a Stable Diffusion pode gerar imagens de pessoas importantes e outros assuntos que OpenAI proíbe em DALL-E 2 . Outros sistemas como Midjourney ou Pixelz.ai também podem fazer isso, mas não alcançam qualidade comparável com a alta diversidade vista em Stable Diffusion – e nenhum dos outros sistemas é de código aberto.
Acontece que #difusãoestável pode fazer interpolações realmente impressionantes entre prompts de texto se você corrigir o ruído de inicialização e slerp entre os vetores de condicionamento de prompt: pic.twitter.com/lWOoETYVZ3
– Xander Steenbrugge (@xsteenbrugge) 7 de agosto de 2022
Já se espera que o Stable Diffusion seja executado em uma única placa de vídeo com 5,1 gigabytes de VRAM – trazendo a tecnologia AI para a borda que até agora só estava disponível por meio de serviços em nuvem. A Stable Diffusion oferece aos pesquisadores e partes interessadas sem acesso a servidores GPU a oportunidade de experimentar um modelo moderno de IA generativa. O modelo também deve rodar em MacBooks com Apple do chip M1. No entanto, a geração de imagens leva vários minutos em vez de segundos aqui.
A própria Stability AI também quer permitir que as empresas treinem sua variante de Stable Diffusion. Os modelos multimodais estão, portanto, seguindo o caminho anteriormente percorrido pelos grandes modelos de linguagem: longe de um único provedor e em direção à ampla disponibilidade de inúmeras alternativas por meio de código aberto.
A Runway já está pesquisando a edição de texto para vídeo habilitada pelo Stable Diffusion.
#difusãoestável os pontos de verificação de texto para imagem estão agora disponíveis para fins de pesquisa mediante solicitação em https://t.co/7SFUVKoUdl
Trabalhando em uma versão mais permissiva e pontos de verificação de pintura interna.
Em breve™ chegando @runwayml para edição de texto para vídeo pic.twitter.com/7XVKydxTeD
– Patrick Esser (@pess_r) 11 de agosto de 2022
Difusão estável: caixa de Pandora e benefícios líquidos
Obviamente, com acesso aberto e a capacidade de executar o modelo em uma GPU amplamente disponível, a oportunidade de abuso aumenta drasticamente.
“Uma porcentagem das pessoas é simplesmente desagradável e esquisita, mas isso é humanidade”, disse Mostaque. “De fato, acreditamos que essa tecnologia prevalecerá, e a atitude paternalista e um tanto condescendente de muitos aficionados por IA é equivocada em não confiar na sociedade”.
Mostaque salienta, no entanto, que a disponibilização gratuita permite à comunidade desenvolver contramedidas.
“Estamos tomando medidas de segurança significativas, incluindo a formulação de ferramentas de ponta para ajudar a mitigar possíveis danos na liberação e em nossos próprios serviços. Com centenas de milhares desenvolvendo neste modelo, estamos confiantes de que o benefício líquido será imensamente positivo e, à medida que bilhões usam essa tecnologia, os danos serão negados”.
Mais informações estão disponíveis no github de Stable Diffusion . Você pode encontrar muitos exemplos dos recursos de geração de imagens do Stable Diffusion no Subreddit de Stable Diffusion. Vá aqui para o inscrição beta para Stable Diffusion .