Sumário
Os grandes avanços no desenvolvimento da IA vêm de mais dados, redes maiores, mais poder de computação. A IA tem futuro fora da nuvem?
A tendência em AIs de linguagem é em direção a modelos cada vez maiores que engolem cada vez mais dados. Esses gigantes incluem a linguagem BERT AI do Google, GPT-2 da OpenAI, RoBERTa do Facebook e Megatron da Nvidia. Esta última é a IA de linguagem mais recente, 24 vezes maior que o BERT-large e cinco vezes maior que o GPT-2.
Mas grandes modelos de IA exigem muito poder de computação: a Nvidia recomenda 512 chips gráficos para treinar o Megatron. E aqueles que quiserem retreinar o GPT-2 da OpenAI trarão até placas de vídeo de servidor rápidas até o limite com a versão mais recente.
Como os modelos de linguagem exigem muito poder e energia de computação, eles são executados apenas na nuvem. Modelos menores podem ser executados localmente sem uma conexão com a Internet no smartphone ou em um robô – mas eles têm um desempenho significativamente menor.
Portanto, são necessários modelos de IA menores que ainda possam corresponder ao desempenho de seus parentes gigantes. Mas como isso pode ser feito?
Volta às aulas (de IA)
A solução poderia ser uma espécie de escola de IA na qual os pequenos IAs aprendem com os grandes.
Pesquisadores de IA chamam esse processo de destilação : um grande modelo de IA atua como professor e um pequeno como aluno. Durante o treinamento, a IA grande repassa seu conhecimento: no caso de uma IA de linguagem, por exemplo, as 20 palavras mais prováveis que completam uma frase incompleta. O pequeno modelo de IA aprende assim a reproduzir os resultados do grande modelo de IA – sem adotar sua escala.
Os pesquisadores do Google agora aplicaram esse método à linguagem AI BERT. O resultado: o aluno do BERT, o DistilBERT, é 60% menor, mais rápido e atinge 95% do desempenho do BERT. No futuro, o DistilBERT será reduzido usando outros métodos, como a remoção de algumas conexões de rede.
O Google também encolheu seu próprio assistente de última geração, que deve ser executado localmente em smartphones Pixel sem conexão com a Internet até o final do ano. O modelo de voz de quase 100 gigabytes foi reduzido para pouco menos de 0,5 gigabytes para isso.