Inteligência Artificial: China pesquisa IA em “escala cerebral”

Na China, o estado e as empresas estão pesquisando modelos de IA com trilhões de parâmetros. Eles querem provar que podem desenvolver IA em “escala cerebral”.

Na corrida para construir modelos de IA cada vez maiores, a China está mostrando que a cooperação entre o estado, as universidades e o setor privado tem potencial para gigantescos modelos de IA. Os pesquisadores estão falando sobre IA em “escala cerebral”: de acordo com sua definição, esses são modelos de IA com parâmetros além da marca de 100 trilhões.

Atualmente, os maiores modelos de IA incluem o Nvidia Megatron NGL com 530 bilhões de parâmetros, o Switch Transformer do Google com 1,6 trilhão e o WuDao 2.0 com 1,75 trilhão de parâmetros.

Esses modelos e outros geralmente são desenvolvidos exclusivamente por empresas do Ocidente. Existem exceções individuais, como o Open GPT-X, um modelo de linguagem que está sendo desenvolvido como parte da iniciativa Gaia-X, ou o projeto BigScience da startup de IA HuggingFace, que está treinando um modelo de linguagem em um supercomputador francês. O coletivo de pesquisa Eleuther AI também está desenvolvendo modelos de código aberto, como GPT-NeoX .

Pequeno recorde a caminho do grande modelo de 100 trilhões

Em um novo artigo, pesquisadores da Universidade de Tsinghua, Alibaba Group, Zhejiang Lab e Beijing Academy of Artificial Intelligence apresentam BaGuaLu, uma estrutura que permite o treinamento de grandes modelos de IA usando a arquitetura Mixture-of-Experts (MoE).

Como o GPT-3 da OpenAI, ele se baseia em modelos Transformer, mas no treinamento de IA forma redes de especialistas individuais que respondem a consultas específicas enquanto conservam os recursos do restante da rede. Os enormes modelos de MoE ativam apenas a parte da rede que é necessária no momento, em vez de toda a rede, como fazem muitas outras arquiteturas de IA.

Em um teste inicial, os pesquisadores treinaram um modelo de 1,93 trilhão com sua estrutura, superando o Switch Transformer do Google. Eles também demonstram que sua estrutura permite modelos com 14,5 trilhões e um total 174 trilhões de parâmetros.

Os pesquisadores conduziram seus experimentos no supercomputador chinês “New Generation Sunway” e também mostraram quais obstáculos a tecnologia de supercomputadores ainda precisa superar para os gigantescos modelos planejados.

Modelos de IA do tamanho do cérebro podem trazer grandes avanços

A equipe espera que modelos de IA multimodais gigantes poderia ter implicações de longo alcance para inúmeras aplicações de IA. Multimodal significa que uma IA é treinada com diferentes dados relacionados, como fotos, textos e vídeos.

Os pesquisadores citam a anotação de imagem e vídeo, geração de imagem e vídeo, busca multimodal, resposta a questões visuais, raciocínio visual, referenciamento de objetos, sistemas de diálogo multimodal e tradução multimodal como cenários de aplicação. Além disso, a experiência adquirida nesses campos pode ser transferida para outras áreas, como IA em biologia ou química.

O BaGuaLu poderá em breve ser usado para treinar os primeiros modelos além de 100 trilhões de parâmetros. Então também ficaria claro se as capacidades dos modelos de IA continuam a escalar tão claramente com seu tamanho, como foi visto, por exemplo, de GPT-2 para GPT-3.

Leia mais sobre Inteligência Artificial:

  • Progresso da IA: estamos ficando sem benchmarks?
  • Microsoft Translator: melhores traduções com a nova tecnologia AI
  • GTC 2022: Omniverse, Hopper GPU, melhor AI – Nvidia mostra tudo