Grandes modelos de imagem como Stable Diffusion podem gerar muitos gráficos em um tempo muito curto. Mas isso não é tudo, como mostra o desenvolvedor Matthias Bühlmann.
Bühlmann experimentou Difusão estável em cenários de aplicação além da geração de imagens. Ele descobriu que o modelo AI pode oferecer melhor qualidade de imagem em alta compactação do que os padrões Web JPG e WebP com resolução de 512 x 512 Pixels.
De acordo com Bühlmann, a compressão por Stable Diffusion oferece “qualidade de imagem muito superior” em um tamanho de arquivo menor em comparação com JPG e WebP.
Bühlmann compara seu método de compressão a um artista com memória fotográfica que vê a imagem não comprimida e a reproduz com a maior precisão – e redução – possível. O processo pode preservar até detalhes finos, como a granulação da câmera.
Artefatos de IA enganosamente reais
No entanto, o método de Bühlmann tem uma desvantagem crucial: pode alterar o conteúdo da imagem, como a forma dos edifícios. O aspecto enganoso disso é que a imagem compactada ainda parece de alta qualidade e, portanto, autêntica.
Artefatos de compactação típicos em JPG e WebP também podem alterar significativamente a imagem, mas geralmente são claramente identificáveis como artefatos. Bühlmann ilustra o problema com a imagem a seguir.
O modelo de Stable Diffusion 1.4 usado por Bühlmann também apresenta problemas com a compactação de faces e texto. A versão 1.5 já deve ser capaz de lidar melhor com rostos, e Bühlmann pretende atualizar ainda mais seu método.
Ele vê a Stable Diffusion como “muito promissora como base para um esquema de compressão de imagem com perdas” com “muito mais potencial” além de seus experimentos atuais.
O programador enfatiza como uma grande vantagem de sua abordagem que se baseia no modelo Stable Diffusion que já foi treinado. Isso significa que não há custos adicionais de treinamento para modelos especiais de compactação de imagem – mesmo que eles possam fornecer resultados ainda melhores. O treinamento do Stable Diffusion custou cerca de $ 600.000 .
Bühlmann descreve seu método em detalhes em seu blog Medium e disponibiliza seu código no Google Colab .