Galactica é um modelo de linguagem de código aberto para o progresso científico

O modelo de linguagem grande Galactica (LLM) está sendo treinado com milhões de peças de conteúdo acadêmico. Ele foi projetado para ajudar a comunidade de pesquisa a gerenciar melhor a “explosão de informações”.

Galactica foi desenvolvido pela Meta AI em colaboração com Papers with Code. A equipe identificou a sobrecarga de informações como um grande obstáculo ao progresso científico. “Os pesquisadores estão enterrados sob uma massa de papéis, cada vez mais incapazes de distinguir entre o significativo e o inconsequente.”

A Galactica foi projetada para ajudar a classificar as informações científicas. Foi treinado com 48 milhões de artigos, livros didáticos e notas de aula, milhões de compostos e proteínas, sites científicos, enciclopédias e muito mais do conjunto de dados “NatureBook”.

Modelos de linguagem como uma nova interface de pesquisa

A Galactica pode armazenar, combinar e raciocinar sobre conteúdo científico, diz a equipe de pesquisa. Em benchmarks como o MMLU matemático, ele supera em muito os modelos de linguagem maiores, como Chinchilla (41,3% a 35,7%) ou PaLM 540B (20,4% a 8,8%).

Para testes de conhecimento técnico, como equações LaTeX, Galactica supera GPT-3 em 68,2% vs. 49,0%. A Galactica também atinge novos recordes (77,6% e 52,9%) em respostas a questões técnicas de biologia e medicina (PubMedQA e MedMCQA).

Além disso, a Galactica supera os grandes modelos de linguagem de código aberto Florescer e OPT-175B no “BIG-Bench”-Benchmark para tarefas gerais de linguagem, embora não tenha sido otimizado para elas. Segundo a equipe, os textos gerados são significativamente menos tóxicos em comparação com outros modelos de linguagem de código aberto.

Suspeitamos que esse resultado reflita a qualidade superior do corpus Galactica, decorrente do fato de ser um texto curado e principalmente acadêmico. Os esforços LLM abertos anteriores provavelmente focaram demais em metas de escala e não focaram na filtragem de dados.

do papel

Como cenários de aplicação específicos, a equipe da Galactica menciona a criação de revisões de literatura, artigos wiki ou notas de palestras sobre tópicos científicos ou respostas a questões científicas, incluindo citações.

Quando questionado sobre o que é uma “Rede Transformadora”, a Galactica gera a seguinte breve explicação com referências bibliográficas, incluindo links para artigos.

1675255978 526 Galactica e um modelo de linguagem de codigo aberto para

O modelo também oferece uma espécie de busca de artigos, onde você pode descrever o conteúdo de um artigo e receber um possivelmente correspondente. Ele pode procurar fórmulas matemáticas específicas ou descrevê-las em linguagem natural ou sugerir citações. Para a última função, no entanto, a precisão é apenas entre 36,6 e 69,1 por cento, dependendo do conjunto de dados de teste e mostra um viés em favor de artigos conhecidos.

1675255979 447 Galactica e um modelo de linguagem de codigo aberto para

Muito espaço para melhorias

“Acreditamos que esses resultados demonstram o potencial dos modelos de linguagem como uma nova interface para a ciência”, escrevem os pesquisadores. Galactica, dizem eles, é apenas o primeiro passo nesta jornada.

Em seu artigo, a equipe descreve inúmeras oportunidades de melhoria, incluindo o uso de mais fontes acadêmicas não disponíveis publicamente e treinamento multimodal com dados fora do texto, como modelos de proteínas.

Vídeo de demonstração para Galactica. | Vídeo: Galactica / Meta AI

“Em conjunto, sentimos que há um forte potencial para os modelos de linguagem assumirem tarefas de conhecimento que atualmente são especialidades humanas”, escrevem os pesquisadores. Eles descrevem sua visão final como um rede neural única para todas as tarefas científicas atuando como a “próxima interface” de acesso ao conhecimento.

Ao todo, a equipe treinou cinco modelos Galactica entre 125 milhões e 120 bilhões de parâmetros. O desempenho da Galactica aumenta suavemente com a escala, de acordo com a equipe. Todos os modelos são de código aberto e disponível gratuitamente no Github .