Galactica é um modelo de linguagem de código aberto para o progresso científico

Sumário

Modelos de linguagem como uma nova interface de pesquisa
Muito espaço para melhorias

O modelo de linguagem grande Galactica (LLM) está sendo treinado com milhões de peças de conteúdo acadêmico. Ele foi projetado para ajudar a comunidade de pesquisa a gerenciar melhor a “explosão de informações”.

Galactica foi desenvolvido pela Meta AI em colaboração com Papers with Code. A equipe identificou a sobrecarga de informações como um grande obstáculo ao progresso científico. “Os pesquisadores estão enterrados sob uma massa de papéis, cada vez mais incapazes de distinguir entre o significativo e o inconsequente.”

A Galactica foi projetada para ajudar a classificar as informações científicas. Foi treinado com 48 milhões de artigos, livros didáticos e notas de aula, milhões de compostos e proteínas, sites científicos, enciclopédias e muito mais do conjunto de dados “NatureBook”.

Modelos de linguagem como uma nova interface de pesquisa

A Galactica pode armazenar, combinar e raciocinar sobre conteúdo científico, diz a equipe de pesquisa. Em benchmarks como o MMLU matemático, ele supera em muito os modelos de linguagem maiores, como Chinchilla (41,3% a 35,7%) ou PaLM 540B (20,4% a 8,8%).

Para testes de conhecimento técnico, como equações LaTeX, Galactica supera GPT-3 em 68,2% vs. 49,0%. A Galactica também atinge novos recordes (77,6% e 52,9%) em respostas a questões técnicas de biologia e medicina (PubMedQA e MedMCQA).

Além disso, a Galactica supera os grandes modelos de linguagem de código aberto Florescer e OPT-175B no “BIG-Bench”-Benchmark para tarefas gerais de linguagem, embora não tenha sido otimizado para elas. Segundo a equipe, os textos gerados são significativamente menos tóxicos em comparação com outros modelos de linguagem de código aberto.

Suspeitamos que esse resultado reflita a qualidade superior do corpus Galactica, decorrente do fato de ser um texto curado e principalmente acadêmico. Os esforços LLM abertos anteriores provavelmente focaram demais em metas de escala e não focaram na filtragem de dados.

do papel

Sumário

Modelos de linguagem como uma nova interface de pesquisa

Muito espaço para melhorias

Artigos Relacionados