SparseGPT reduz modelos de linguagem grandes sem sacrificar a precisão

Grandes modelos de linguagem requerem muita memória e poder de computação. A esparsificação pode reduzir ambos.

Grandes modelos de linguagem da família GPT tornaram-se o padrão no processamento de máquina de linguagem natural. No entanto, sua usabilidade é limitada devido ao seu tamanho e ao poder computacional necessário.

O GPT-175B, por exemplo, compreende 175 bilhões de parâmetros que ocupam pelo menos 320 gigabytes de memória. Portanto, são necessários no mínimo cinco GPUs A100 com 80 gigabytes de memória cada para operação.

Quase todas as abordagens existentes para compressão dependem da quantização, o que reduz a precisão da representação numérica dos pesos individuais. Isso reduz o tamanho das redes, mas também seu desempenho, pois não representam as informações com precisão.

Poda de um tiro sem perda de precisão

A poda é um método alternativo. Aqui, o modelo se torna mais compacto ao remover informações redundantes ou menos importantes. A abordagem não é nova e é considerada útil, mas a precisão geralmente sofre.

Essa perda deve primeiro ser recuperada por um dispendioso retreinamento do modelo. Os métodos anteriores de remoção one-shot são muito demorados para serem aplicados a modelos grandes com bilhões de parâmetros.

O SparseGPT pode ser uma solução para esse problema. Este método é apresentado por Elias Frantar e Dan Alistarh, do Instituto de Ciência e Tecnologia da Áustria, em um novo artigo intitulado “Modelos de linguagem maciça podem ser podados com precisão em um único tiro”.

Segundo os autores, O SparseGPT é o primeiro método preciso de corte único que funciona eficientemente para modelos com dez a 100 bilhões de parâmetros.

50 a 60% menor, mesmo com 175 bilhões de parâmetros

A poda com SparseGPT leva apenas cerca de quatro horas com uma única GPU, mesmo nos maiores modelos GPT disponíveis publicamente, ou seja, OPT-175B e BLOOM-176B disse a equipe.

Ficou claro que modelos maiores eram mais fáceis de reduzir : os pesquisadores conseguiram reduzir os modelos em 50 a 60% usando o SparseGPT. Mesmo com um nível tão alto de esparsidade, não haveria praticamente nenhuma perda de precisão no OPT-175B, por exemplo, em comparação com o modelo denso. Ou seja, cerca de 100 bilhões de parâmetros podem ser ignorados durante a inferência.

A poda e o ajuste fino podem atingir até 90% de esparsificação

A equipe diz que suspeita que a poda progressiva e o ajuste fino podem atingir pelo menos 80 a 90% de esparsificação. Eles também planejam investigar a aplicabilidade de suas abordagens durante o treinamento para reduzir o custo computacional de pré-treinamento desses modelos massivos.

A modelagem esparsa pode, portanto, fazer com que modelos grandes sejam executados com mais eficiência no futuro – e permitir modelos ainda maiores.

Essa visão também é compartilhada pelo A startup alemã de IA Aleph Alpha e a fabricante britânica de chips de IA Graphcore . As duas empresas demonstraram uma abordagem de esparsificação para modelos de linguagem mais enxutos em novembro de 2022.