Sumário
Até que ponto as imagens de IA se destacam do material de treinamento? Um estudo de modelos de difusão visa fornecer uma resposta a esta questão.
Debates sobre arte de IA que Stable Diffusion, DALL-E 2 e Midjourney criam ou não criam acompanham as ferramentas desde o início. O debate mais intenso é provavelmente aquele sobre direitos autorais, especialmente em relação ao material de treinamento utilizado. Recentemente, o prompt popular “Trending on ArtStation” está no centro de protestos contra imagens de IA . É baseado na imitação de obras de arte populares no ArtStation.
Modelos de difusão grandes e extensivamente treinados devem garantir que cada novo prompt produza uma imagem única, muito distante dos originais nos dados de treinamento. Mas este é realmente o caso?
O tamanho do conjunto de dados e a replicação estão relacionados
Pesquisadores da Universidade de Nova York e da Universidade de Maryland abordaram essa questão em um novo artigo intitulado “Arte de difusão ou falsificação digital?
Eles examinam diferentes modelos de difusão treinados em diferentes conjuntos de dados, como Oxford Flowers, Celeb-A, ImageNet e LAION . Eles queriam descobrir como fatores como a quantidade de dados de treinamento e treinamento afetam a taxa de replicação da imagem.
À primeira vista, os resultados do estudo não são surpreendentes: modelos de difusão treinados em conjuntos de dados menores são mais propensos a produzir imagens que são copiadas ou muito semelhantes aos dados de treinamento. o quantidade de replicação diminui à medida que o tamanho do conjunto de treinamento aumenta.
O estudo examinou apenas uma pequena parte dos dados de treinamento
Usando o “12M LAION Aesthetics v2 6+” de doze milhões de imagens, os pesquisadores examinaram apenas uma pequena seção do conjunto de dados de treinamento Stable Diffusion de dois bilhões de imagens. Eles descobriram que modelos como Stable Diffusion em alguns casos “copiam descaradamente” de seus dados de treinamento.
No entanto, o a reprodução quase exata dos dados de treinamento não é inevitável, como mostraram estudos mais antigos sobre modelos generativos, como GANs, afirma o artigo. A equipe confirma isso com um modelo de difusão latente (LDM) treinado com ImageNet, onde não há evidência de replicação de dados significativa. Então, o que a Stable Diffusion faz de diferente?
As cópias não acontecem com frequência, mas com bastante frequência
Os pesquisadores suspeitam que o comportamento de replicação em Stable Diffusion resulta de uma interação complexa de fatores, como o modelo sendo condicionado por texto em vez de condicionado por classe e o conjunto de dados usado para treinamento tendo uma distribuição distorcida de repetições de imagens.
Nos testes aleatórios, em média, cerca de duas em cada 100 imagens geradas eram muito semelhantes às imagens do conjunto de dados (escore de similaridade > 0,5).
O objetivo deste estudo foi avaliar se os modelos de difusão são capazes de reproduzir conteúdo de alta fidelidade a partir de seus dados de treinamento, e descobrimos que sim. Embora as imagens típicas de modelos em grande escala não pareçam conter conteúdo copiado que foi detectado usando nossos extratores de recursos, as cópias parecem ocorrer com frequência suficiente para que sua presença não possa ser ignorada com segurança.
do papel
Como apenas 0,6% dos dados de treinamento do Stable Diffusion foram usados para teste, existem vários exemplos que só podem ser encontrados em modelos maiores, escrevem os pesquisadores. Além disso, os métodos utilizados podem não detectar todos os casos de replicação de dados.
Por essas duas razões, afirma o artigo, “os resultados aqui subestimam sistematicamente a quantidade de replicação em Stable Diffusion e outros modelos”.