Sumário
As empresas européias mostram o primeiro resultado de sua cooperação: um modelo de linguagem Aleph Alpha reduzido em 80 por cento.
Grandes modelos de linguagem como OpenAI’s GPT-3 ou do Google Palma têm bem mais de cem bilhões de parâmetros. Mesmo com novos insights sobre o papel dos dados de treinamento no Deepmind’s Chinchilla, modelos maiores são esperados.
Na verdade, modelos de linguagem como o Switch Transformer do Google já existem com 1,6 trilhão de parâmetros, mas eles dependem de modelagem esparsa, no caso do Google especificamente em uma arquitetura Transformer que mistura especialistas.
Considerando que com GPT-3, por exemplo, todas as partes da rede neural estão envolvidas em cada etapa de processamento, modelos esparsos como o Switch Transformer usam processos nos quais apenas partes da rede relevantes para a tarefa se tornam ativas. Isso reduz muito o poder de computação necessário para consultas à rede.
Uma colaboração europeia de IA mostra os primeiros resultados
O Google usa modelagem esparsa no caso do Switch Transformer para escalar ainda mais os modelos de linguagem. Mas, inversamente, também pode ser usado para treinar redes menores com desempenho semelhante a modelos maiores.
Isso é exatamente o que A fabricante de chips de IA Graphcore e a startup de IA Aleph Alpha agora fizeram. Os dois Empresas europeias de IA anunciaram uma colaboração em junho de 2022 que visa desenvolver grandes modelos europeus de IA, entre outras coisas. O alemão Aleph Alpha foi lançado recentemente O data center de IA comercial mais rápido da Europa .
O CEO da Aleph Alpha, Jonas Andrulis, destacou as vantagens de Hardware da Graphcore para modelagem esparsa no verão passado, dizendo: “A IPU da Graphcore oferece uma nova oportunidade para avaliar abordagens tecnológicas avançadas, como esparsidade condicional. Essas arquiteturas, sem dúvida, desempenharão um papel na pesquisa futura da Aleph Alpha”.
Graphcore e Aleph Alpha demonstram modelo leve de linguagem Luminous
As duas empresas conseguiram reduzir Modelo de linguagem “Base Luminosa” de 13 bilhões de parâmetros do Aleph Alpha para 2,6 bilhões de parâmetros. As empresas também mostraram a variante simplificada executando o Lumi, um “módulo de conversação” para o Luminous.
A modelagem esparsa reduziu quase 80 por cento dos pesos do modelo preservando a maior parte de suas capacidades, de acordo com o comunicado de imprensa.
O novo modelo usa multiplicações de matrizes esparsas de pontos suportadas pela Unidade de Processamento de Inteligência (IPU) da Graphcore e requer apenas 20% do poder computacional e 44% da memória do modelo original, afirmou.
O tamanho pequeno permite que o modelo de 2,6 bilhões de parâmetros seja mantido inteiramente na memória on-chip de velocidade ultra-alta de um Graphcore IPU-POD16 Classic – alcançando desempenho máximo. o modelo também requer 38 por cento menos energia.
Central de “esparsificação” para a próxima geração de modelos de IA
Para a próxima geração de modelos, a “esparsificação” será crítica, disseram as empresas. Isso permitiria que submodelos especializados dominassem o conhecimento selecionado com mais eficiência.
“Esse avanço na modelagem de esparsificação afeta o potencial comercial de empresas de IA como a Aleph Alpha, permitindo que forneçam modelos de IA de alto desempenho para clientes com requisitos computacionais mínimos “, acrescentou o comunicado.
O Google também está seguindo esse caminho. Em outubro de 2021, o chefe de IA, Jeff Dean, falou pela primeira vez sobre o futuro da IA do gigante das buscas: Caminhos é um dia se tornar uma espécie de sistema multifuncional de IA – e conta com modelagem esparsa como elemento central.