Sumário
O Google demonstra um método com o qual grandes modelos de linguagem geram texto significativamente mais rápido. Nos testes, a empresa conseguiu economizar quase 50% do tempo de computação.
Modelos de linguagem grandes são usados em várias tarefas de processamento de linguagem natural, como tradução ou geração de texto. Modelos como GPT-3 , Palma ou LaMDA alcançar resultados impressionantes e mostrar que o desempenho dos modelos de linguagem aumenta com seu tamanho.
No entanto, esses modelos enormes são lentos em comparação com variantes menores e exigem muita computação. Além disso, como eles prevêem uma palavra por vez e a previsão de uma palavra deve ser concluída antes que o modelo possa prever a próxima, a geração de texto não pode ser paralelizada.
O CALM do Google obtém previsões de camadas anteriores
O Google agora está demonstrando o Confident Adaptive Language Modeling (CALM), um método para acelerar a geração de texto de grandes modelos de linguagem. A intuição por trás do método é que prever algumas palavras é fácil, enquanto outras são difíceis. No entanto, os modelos de linguagem atuais usam os mesmos recursos para cada palavra em uma frase. O CALM, por outro lado, distribui dinamicamente os recursos computacionais usados durante a geração do texto.
Vídeo: Google
Os modelos de linguagem dependem de várias camadas transformadoras nas quais os módulos de atenção e feedforward modificam as representações internas do texto. No decodificador, esse processo acaba resultando na predição da próxima palavra.
Em vez de executar esse processo em todas as camadas, o CALM mede a confiança do modelo em sua previsão no início das camadas e usa essas representações se a confiança for alta o suficiente. Se o valor for baixo, a previsão é movida para as camadas posteriores como de costume.
CALM reduz o tempo de computação em quase 50% nos testes
Para testar o CALM, o Google treina um modelo T5 e compara o desempenho do CALM com um modelo padrão. Ao fazer isso, a equipe mostra que o método atinge pontuações altas em vários benchmarks para tradução, resumo e resposta a perguntas e usa significativamente menos camadas por palavra, em média. Na prática, o CALM em TPUs economiza até 50% do tempo de computação, mantendo a qualidade.
CALM permite geração de texto mais rápida com LMs, sem reduzir a qualidade do texto de saída. Isso é obtido modificando dinamicamente a quantidade de computação por etapa de tempo de geração, permitindo que o modelo saia da sequência computacional mais cedo quando tiver confiança suficiente.
À medida que os modelos crescem em tamanho, o uso eficiente deles é fundamental, disse o Google. O CALM é um dos principais contribuintes para esse objetivo e pode ser combinado com outras abordagens de eficiência bem conhecidas, como destilação ou esparsidade, de acordo com o Google.