Sumário
O Google demonstra um novo método que melhora os modelos de mistura de especialistas e reduz pela metade o tempo de convergência de treinamento.
O dimensionamento do tamanho do modelo, dados de treinamento e outros fatores levaram a grandes avanços na pesquisa de IA, como no processamento de linguagem natural ou na análise e geração de imagens. Os pesquisadores demonstraram repetidamente uma relação direta entre a escala e a qualidade do modelo.
Portanto, modelos cada vez maiores com centenas de bilhões ou até trilhões de parâmetros estão sendo desenvolvidos. Para aumentar a eficiência do treinamento dessas redes gigantescas, algumas empresas de IA usam os chamados modelos esparsos.
Esses modelos usam apenas partes de sua rede, por exemplo, para processar um token. Modelos densamente treinados como GPT-3 ativam toda a rede para cada etapa de processamento.
Com seu Projeto Caminhos , o Google está buscando o futuro da inteligência artificial, que deve ser capaz de aprender novas tarefas ao vivo e processar inúmeras modalidades. Um elemento central do Pathways é o dimensionamento – e, portanto, a modelagem esparsa. Em um novo artigo, o Google demonstra um avanço que melhora significativamente o treinamento da arquitetura de mistura de especialistas frequentemente usada em modelos esparsos.
O Google pesquisa arquiteturas MoE há mais de dois anos
Em agosto de 2020, o Google apresentou o GShard, um método para paralelizar cálculos de IA. O método permitiu pela primeira vez a realização de um modelo de Mixture-of-Experts esparsamente treinado com 600 bilhões de parâmetros (MoE-Transformer).
Dentro de um módulo Transformer, normalmente há uma única rede de feedforward que encaminha informações como tokens. Em uma rede MoE-Transformer, existem várias dessas redes – os especialistas de mesmo nome. Em vez de passar todos os tokens por uma única rede, um especialista processa apenas alguns tokens.
No MoE-Transformer treinado pela GShard, dois especialistas geralmente processam cada token. A intuição por trás disso é que a inteligência artificial não pode aprender com sucesso se não puder comparar um especialista com pelo menos um outro especialista.
Em janeiro de 2021, os pesquisadores do Google apresentaram o modelo Switch Transformer de 1,6 trilhão de parâmetros, também um MoE-Transformer esparsamente treinado. Ele tem uma diferença crucial: em vez de duas ou mais redes especializadas por token, um roteador encaminha as informações para apenas uma rede por vez. O Google compara esse processo a uma troca. Daí o nome do modelo AI.
No trabalho, o Google mostrou que o Switch Transformer pode ser treinado mais rapidamente e alcança melhores resultados do que as abordagens anteriores.
As arquiteturas MoE convencionais tendem a ser desequilibradas
Agora, o Google publicou um novo artigo que refina ainda mais o sistema MoE. As variantes existentes, como o Switch Transformer, têm algumas desvantagens, de acordo com os autores. Por exemplo, certas redes de especialistas podem ser treinadas com a maioria dos tokens durante o treinamento, portanto, nem todos os especialistas são suficientemente utilizados.
Isso leva a um desequilíbrio de carga no qual redes especializadas em uso excessivo não processam tokens para evitar a falta de memória. Na prática, isso leva a resultados piores.
Além disso, a latência de todo o sistema é determinada pelo especialista mais carregado. Portanto, no caso de um desequilíbrio de carga, algumas vantagens da paralelização também são perdidas.
Também seria útil para um modelo MoE alocar de forma flexível seus recursos computacionais, dependendo da complexidade da entrada. Até agora, cada token sempre recebeu o mesmo número de especialistas – dois no caso do GShard e um no caso do Switch Transformer.
Google demonstra mistura de especialistas com roteamento de escolha de especialista
O Google identifica a estratégia de roteamento escolhida como a causa dessas desvantagens. Os modelos convencionais de MoE usam roteamento de escolha de token, que seleciona independentemente um certo número de especialistas para cada token.
Em seu novo trabalho, o Google propõe um especialista para os especialistas: no chamado roteamento de escolha do especialista, o roteador seleciona um determinado número de tokens para cada rede especialista. Isso permite que o roteamento seja mais flexível, dependendo da complexidade dos tokens disponíveis.
Segundo o Google, o o método de roteamento de escolha especializada atinge o balanceamento de carga perfeito apesar de sua simplicidade. Também permite uma alocação mais flexível da computação do modelo, pois os tokens podem ser recebidos por um número variável de especialistas.
Em uma comparação com o Switch Transformer e o GShard, o Google mostra que o novo método melhora o tempo de convergência do treinamento em mais de duas vezes. Com o mesmo esforço computacional, também alcança melhores resultados no ajuste fino de onze tarefas selecionadas nos benchmarks GLUE e SuperGLUE. Por um custo de ativação menor, o método também supera o modelo T5 densamente treinado em sete das onze tarefas.
A equipe também mostra que o roteamento de escolha de especialista atribui uma grande proporção de tokens a um ou dois especialistas, 23% a três ou quatro e apenas cerca de 3% a quatro ou mais especialistas. De acordo com os pesquisadores, isso confirma a hipótese de que o roteamento de escolha de especialista aprende a atribuir um número variável de especialistas a tokens.
Nossa abordagem para roteamento de escolha especializada permite MoE heterogêneo com inovações algorítmicas diretas. Esperamos que isso possa levar a mais avanços nesse espaço, tanto no nível do aplicativo quanto no nível do sistema.