A IA de imagem mais recente do Google é melhor que a anterior, que tem apenas quatro semanas

A mais recente imagem AI Parti do Google gera imagens a partir de descrições particularmente abrangentes. Isso permite que os resultados sejam controlados com ainda mais precisão.

Recentemente, o Google introduziu Imagen uma IA de imagem que usa uma arquitetura semelhante (difusão) ao DALL-E 2 da Open AI para gerar imagens, mas aplica um grande modelo de linguagem AI para entrada – e pode gerar imagens melhores a partir de descrições de texto graças ao seu nível mais alto de compreensão da linguagem.

O novo modelo de IA Parti (Pathways Autoregressive Text-to-Image), agora revelado pelo Google, está testando uma arquitetura alternativa (autoregressiva) ainda mais próxima da função de grandes modelos de linguagem para tradução, por exemplo. Esses modelos de linguagem prevêem novas palavras apropriadas com base em palavras anteriores e no contexto da frase ou parágrafo. A Parti aplica este princípio às imagens – com sucesso.

Parti escala – e tem conhecimento mundial, de acordo com o Google

Isso ocorre porque, como muitos modelos de linguagem grandes, o Parti mostra que alcança resultados significativamente melhores com um treinamento mais extenso que leva a mais parâmetros. Simplificando, o modelo de IA é dimensionado – e muito. Ele também pode converter com precisão entradas de texto particularmente longas e complexas em imagens, o que contribui para uma compreensão ainda melhor da conexão entre linguagem e motivos.

A imagem acima mostra a diferença de qualidade no mesmo prompt para quatro modelos Parti treinados em diferentes graus. O maior modelo com 20 bilhões de parâmetros produz a imagem mais livre de erros correspondente à extensa entrada de texto. Ao contrário do DALL-E 2, o Parti em sua versão maior pode até mesmo soletrar palavras corretamente (“Welcome Friends”).

“O modelo 20B se destaca especialmente em solicitações abstratas, que exigem conhecimento do mundo, perspectivas específicas ou escrita e renderização de símbolos”, escreve a equipe de pesquisa do Google.

Os testadores humanos preferiram a saída do maior modelo ao modelo de três bilhões em cerca de 63% das vezes. Em cerca de 76% dos casos, eles atribuíram o modelo de 20 bilhões para gerar imagens mais adequadas para o texto de entrada.

1675143746 112 A IA de imagem mais recente do Google e melhor

O Parti gera todas as imagens com uma resolução de 256 x 256 Pixels e, em seguida, usa um upscaler para trazê-las para 1024 x 1024 Pixels.

Parti também não pode contar

O Parti também pode gerar imagens fantásticas de assuntos que não faziam parte do material de treinamento e que não existem. Os pesquisadores atribuem à IA de imagem a capacidade de refletir com precisão o conhecimento do mundo, compor muitos protagonistas e objetos com detalhes e interações sutis e aderir a um formato e estilo de imagem específicos.

1675143747 100 A IA de imagem mais recente do Google e melhor

No entanto, o sistema ainda apresenta inúmeros problemas, por exemplo na representação de proporções ou na diferenciação e – como DALL-E 2 – contagem de objetos dentro de uma imagem.

Com a entrada de texto “Duas bolas de beisebol à esquerda de três bolas de tênis”, o sistema gera duas bolas de tênis e à direita delas outra bola de tênis com as costuras de uma bola de beisebol. Além disso, existem erros técnicos, como sangramento de cores.

1675143747 782 A IA de imagem mais recente do Google e melhor

A equipe de pesquisa teme que o Parti represente preconceitos e estereótipos, uma questão que Imagen e DALL-E 2 também lutam com. Por exemplo, amplificam-se os estereótipos sobre ocupações masculinas e femininas típicas. Além disso, de acordo com os pesquisadores, existe um risco adicional de deepfake devido à possível geração fotorrealista de pessoas.

Por esse motivo, os pesquisadores estão se abstendo de publicar o modelo, código e outros dados por enquanto. A equipe planeja continuar trabalhando nos problemas.

O Parti Google Image AI for Pathways?

O nome também é interessante: o P em Parti significa Pathways, a arquitetura de IA de próxima geração do Google revelado pela primeira vez pelo chefe de IA do Google, Jeff Dean, no final de 2021.

O objetivo do Pathways é um sistema multifuncional inteligente de IA que pode um dia “generalizar em milhões de tarefas”. O fato de o Parti ter Pathway em seu nome pode indicar que ele assumirá o papel de gerador de imagens nesta futura arquitetura. De acordo com a equipe de pesquisa do Google, também vale a pena tentar combinações das arquiteturas Parti e Imagen.

A equipe mostra muitos adicionais exemplos positivos e negativos de imagens do Parti em um site interativo e explica a estrutura do sistema em detalhes.