Google PaLM: IA de linguagem gigante pode explicar piadas

O Google revela o mais recente avanço em inteligência artificial: o modelo de IA da linguagem PaLM é enorme, poderoso e o primeiro bloco de construção de uma grande visão.

No ano passado, o Google revelou o conceito de caminhos uma arquitetura de IA para a próxima geração de inteligência artificial . A visão: um único e grande modelo de IA deve dominar muitas tarefas.

Com o modelo PaLM (Pathways Language Model), o Google está revelando o primeiro bloco de construção da arquitetura Pathways para processamento de linguagem natural.

PaLM é um dos maiores modelos de linguagem AI

Com 540 bilhões de parâmetros, o PaLM é um dos maiores de seu tipo. A irmã do Google, Deepmind, revelou o Gopher em dezembro de 2021, um modelo com 280 bilhões de parâmetros que poderia superar a conhecida IA ​​de linguagem GPT-3 da OpenAI com 175 bilhões de parâmetros em muitas tarefas de linguagem. A Nvidia e a Microsoft treinaram em conjunto os 530 bilhões de parâmetros megatron modelo. Todos esses sistemas são baseados na arquitetura Transformer.

A base para o treinamento de IA é um sistema de treinamento desenvolvido pelo Google for Pathways, que foi usado para treinar PaLM em 6144 chips em paralelo em dois Pods do Cloud TPU v4 . De acordo com o Google, este foi o maior sistema de treinamento de IA baseado em TPU até o momento.

O PaLM foi treinado com uma mistura de conjuntos de dados em inglês e multilíngues. Os textos vieram de sites de “alta qualidade”, como Wikipedia, livros e discussões, e – no caso de exemplos de código – do Github.

A linguagem AI continua a melhorar à medida que cresce

Provavelmente, o insight mais importante do modelo PaLM do Google é que o processamento de linguagem dos modelos de IA continua a aumentar com o número de seus parâmetros. Simplificando, quanto maior o modelo, melhor e mais diversificado ele processa a linguagem. O Google ilustra isso na animação a seguir.

Quanto mais parâmetros o modelo de linguagem tiver, mais recursos ele deverá desenvolver. O Google compara isso aos galhos de uma árvore em crescimento. | Vídeo: Google

De acordo com o Google, o PaLM demonstra “capacidades inovadoras” em várias tarefas de linguagem particularmente desafiadoras, como compreensão e geração de linguagem, raciocínio e tarefas relacionadas a código.

Por exemplo, diz-se que o modelo é capaz de distinguir causa e efeito, entender combinações de termos em contextos apropriados e até adivinhar um filme com base em emojis, conforme mostrado na animação a seguir.

Vídeo: Google

Como é prática comum com grandes modelos de linguagem, o PaLM também pode ser ajustado com alguns exemplos adicionais para tarefas específicas, como geração de código. Nesse chamado aprendizado de “poucas tentativas”, diz-se que o PaLM supera todos os grandes modelos de linguagem de IA conhecidos, tornando o modelo mais versátil.

Em particular, o pensamento lógico e um “conhecimento geral” devem se beneficiar de um número crescente de parâmetros. Se for oferecido à IA o caminho de solução de uma tarefa de texto simples em um exemplo (“cadeia de sugestões de pensamento”), ela poderá resolver uma tarefa comparável de forma independente.

A compreensão de texto do PaLM deve ir tão longe que a IA possa explicar piadas simples. O Google demonstra isso com o exemplo a seguir, no qual o computador em nuvem (pod) usado para treinamento de IA é comparado a uma baleia.

O prompt “Explique esta piada” em combinação com a indicação de quando a piada começa é suficiente para o modelo PaLM fornecer uma explicação apropriada. A piada com sua explicação não foi incluída nos dados de treinamento.

Para tarefas de código, diz-se que o PaLM alcança desempenho semelhante ao Codex da OpenAI com menos exemplos de dados, graças à sua forte capacidade de poucos disparos. Havia cerca de cinco por cento de exemplos de código no conjunto de dados pré-treinamento.

Para a linguagem de programação Python, o PaLM exigiu 50 vezes menos dados de treinamento do que o Codex para desempenho comparável, de acordo com o Google. Os pesquisadores do Google veem isso como uma indicação de que “modelos maiores podem ser mais eficientes em termos de amostragem do que modelos menores porque transferem melhor o aprendizado de outras linguagens de programação e dados de linguagem natural”.

No caminho para a visão Pathways

A equipe do Google acredita que a abordagem de treinar enormes modelos de IA e, em seguida, combiná-los com tarefas específicas com dados limitados não é maximizada com o PaLM. Espera-se que a capacidade de poucos disparos se beneficie ainda mais de modelos maiores: “Empurrar os limites da escala do modelo permite um desempenho inovador de poucos disparos do PaLM em uma variedade de tarefas de processamento de linguagem natural, raciocínio e código”.

O PaLM abre assim o caminho para modelos de desempenho ainda mais alto “combinando as capacidades de dimensionamento com novas escolhas arquitetônicas e esquemas de treinamento”. É, portanto, um passo importante em direção à grande visão do Pathways, de acordo com os cientistas, em que um único modelo de IA pode entender diversos dados para lidar com milhares ou até milhões de tarefas com eficiência.

o O código PaLM está disponível no Github .

Leia mais sobre Inteligência Artificial:

  • Inteligência Artificial: China pesquisa IA em “escala cerebral”
  • Treinamento de IA: a inteligência artificial se torna mais flexível
  • Inteligência Artificial para ajudar em transplantes de coração