Sumário
A Microsoft está exibindo o LLM-Augmenter, uma estrutura projetada para fazer com que o ChatGPT e outros modelos de linguagem produzam menos desinformação.
Com OpenAIs ChatGPTda Microsoft Bing chatbote em breve o Google Bardo, grandes modelos de linguagem chegaram ao domínio público. Entre outros problemas, os modelos de linguagem são conhecidos por alucinar informações e relatá-las como fatos com grande convicção.
Durante anos, os pesquisadores desenvolveram vários métodos para reduzir as alucinações em modelos de linguagem. À medida que a tecnologia é aplicada a áreas críticas como a pesquisa, a necessidade de uma solução torna-se mais urgente.
Com o LLM Augmenter, a Microsoft está apresentando uma estrutura que pode reduzir o número de alucinações pelo menos um pouco.
O LLM Augmenter da Microsoft depende de módulos plug-and-play
Em seu trabalho, pesquisadores da Microsoft e da Columbia University adicionaram quatro módulos ao ChatGPT: Memory, Policy, Action Executor e Utility. Esses módulos ficam upstream do ChatGPT e adicionam fatos às solicitações do usuário, que são passadas para o ChatGPT em um prompt estendido.
A Memória de Trabalho acompanha o diálogo interno e armazena todas as informações importantes de uma conversa, incluindo a solicitação humana, os fatos recuperados e as respostas do ChatGPT.
O módulo Policy seleciona a próxima ação a ser executada pelo ampliador LLM, incluindo a recuperação de conhecimento de bancos de dados externos, como a Wikipedia, chamando o ChatGPT para gerar uma resposta candidata a ser avaliada pelo módulo Utility e enviando uma resposta aos usuários se a resposta passa na validação do módulo Utilitário.
As estratégias do módulo de políticas podem ser escritas à mão ou aprendidas. No documento, a Microsoft conta com regras escritas manualmente, como “sempre ligar para fontes externas” para ChatGPT devido à baixa largura de banda no momento do teste, mas usa um modelo T5 para mostrar que o ampliador LLM também pode aprender políticas.
O Action Executor é orientado pelo módulo Policy e pode coletar conhecimento de fontes externas e gerar novos prompts a partir desses fatos e das respostas dos candidatos do ChatGPT, que por sua vez são repassados ao ChatGPT. O módulo Utility determina se os candidatos de resposta do ChatGPT correspondem ao objetivo desejado de uma conversa e fornece feedback ao módulo Policy.
Por exemplo, em uma caixa de diálogo de recuperação de informações, o módulo Utilitário verifica se todas as respostas são obtidas de fontes externas. Em um diálogo de reserva de restaurante, por outro lado, as respostas devem ser mais coloquiais e guiar o usuário pelo processo de reserva sem divagar. Mais uma vez, diz a Microsoft, pode ser usada uma mistura de modelos de linguagem especializados e regras manuscritas.
O ampliador LLM reduz os erros do chatbot, mas são necessárias mais pesquisas
Em testes realizados pela Microsoft, a equipe mostra que o ampliador LLM pode melhorar os resultados do ChatGPT: e 12,9 por cento mais humanos do que respostas nativas do ChatGPT.
No benchmark Wiki QA, onde o modelo deve responder a questões factuais que muitas vezes requerem informações espalhadas por várias páginas da Wikipedia, o LLM-Augmenter também aumenta significativamente o número de afirmações corretas, mas não se aproxima de modelos treinados especificamente para esta tarefa.
A Microsoft planeja atualizar seu trabalho com um modelo treinado com ChatGPT e mais feedback humano sobre seus próprios resultados. O feedback humano e a interação também serão usados para treinar os intensificadores do LLM. A equipe sugere que mais melhorias são possíveis com designs de prompt refinados.
O artigo não revela se o ampliador LLM ou uma estrutura semelhante é usado para o chatbot do Bings.