Sumário
O departamento de dados KBLab da Biblioteca Nacional da Suécia combina milhares de obras em um conjunto de dados. Isso é usado para treinar modelos de IA.
Por lei, a Biblioteca Nacional da Suécia coletou praticamente todos os escritos em língua sueca dos últimos 500 anos. Um total de 16 petabytes já foram coletados e a coleção cresce 50 terabytes a cada mês.
Com base nisso, o KBLab, o departamento integrado de pesquisa criado em 2019, treinou mais de duas dezenas de modelos de IA. “Antes de nosso laboratório ser criado, os pesquisadores não podiam acessar um conjunto de dados na biblioteca – eles tinham que olhar para um único objeto por vez”, disse Börjeson. “Havia a necessidade de a biblioteca criar conjuntos de dados que permitissem aos pesquisadores conduzir pesquisas quantitativas.”
Conjuntos de dados altamente especializados para pesquisa
Graças a este trabalho, os pesquisadores logo poderão criar conjuntos de dados altamente especializados, “por exemplo, puxando cada cartão postal sueco que retrata uma igreja, cada texto escrito em um estilo particular ou cada menção de uma figura histórica em livros, artigos de jornal e Transmissões de TV”, de acordo com o blog da Nvidia. O hardware do fabricante do processador gráfico foi usado para o treinamento.
Para o primeiro modelo, o KBLab usou 20 GB de dados, mas hoje usa cerca de 70 GB, de acordo com Cara Abraçando . Em breve, ele abordará até um terabyte inteiro de textos em sueco. Além do sueco, o conjunto de dados também incluirá holandês, norueguês e alemão. Isso deve melhorar o desempenho dos modelos de IA.
Modelo de texto generativo em desenvolvimento
Além dos modelos Transformer que entendem texto em sueco, o KBLab possui uma ferramenta de IA que converte áudio em texto, permitindo que a biblioteca transcreva sua extensa coleção de transmissões de rádio para que os pesquisadores possam pesquisar o áudio em busca de conteúdo específico.
A KBLab também está desenvolvendo modelos de texto generativos e um modelo de IA para criar automaticamente descrições de conteúdo de vídeo. Juntamente com pesquisadores da Universidade de Gotemburgo e da Academia Sueca, o KBLab está apoiando a modernização dos dicionários.