Microsoft planeja combater mentiras de chatbot com LLM-Augmenter

A Microsoft está exibindo o LLM-Augmenter, uma estrutura projetada para fazer com que o ChatGPT e outros modelos de linguagem produzam menos desinformação.

Com OpenAIs ChatGPTda Microsoft Bing chatbote em breve o Google Bardo, grandes modelos de linguagem chegaram ao domínio público. Entre outros problemas, os modelos de linguagem são conhecidos por alucinar informações e relatá-las como fatos com grande convicção.

Durante anos, os pesquisadores desenvolveram vários métodos para reduzir as alucinações em modelos de linguagem. À medida que a tecnologia é aplicada a áreas críticas como a pesquisa, a necessidade de uma solução torna-se mais urgente.

Com o LLM Augmenter, a Microsoft está apresentando uma estrutura que pode reduzir o número de alucinações pelo menos um pouco.

O LLM Augmenter da Microsoft depende de módulos plug-and-play

Em seu trabalho, pesquisadores da Microsoft e da Columbia University adicionaram quatro módulos ao ChatGPT: Memory, Policy, Action Executor e Utility. Esses módulos ficam upstream do ChatGPT e adicionam fatos às solicitações do usuário, que são passadas para o ChatGPT em um prompt estendido.

A Memória de Trabalho acompanha o diálogo interno e armazena todas as informações importantes de uma conversa, incluindo a solicitação humana, os fatos recuperados e as respostas do ChatGPT.

O módulo Policy seleciona a próxima ação a ser executada pelo ampliador LLM, incluindo a recuperação de conhecimento de bancos de dados externos, como a Wikipedia, chamando o ChatGPT para gerar uma resposta candidata a ser avaliada pelo módulo Utility e enviando uma resposta aos usuários se a resposta passa na validação do módulo Utilitário.

As estratégias do módulo de políticas podem ser escritas à mão ou aprendidas. No documento, a Microsoft conta com regras escritas manualmente, como “sempre ligar para fontes externas” para ChatGPT devido à baixa largura de banda no momento do teste, mas usa um modelo T5 para mostrar que o ampliador LLM também pode aprender políticas.

O Action Executor é orientado pelo módulo Policy e pode coletar conhecimento de fontes externas e gerar novos prompts a partir desses fatos e das respostas dos candidatos do ChatGPT, que por sua vez são repassados ​​ao ChatGPT. O módulo Utility determina se os candidatos de resposta do ChatGPT correspondem ao objetivo desejado de uma conversa e fornece feedback ao módulo Policy.

Por exemplo, em uma caixa de diálogo de recuperação de informações, o módulo Utilitário verifica se todas as respostas são obtidas de fontes externas. Em um diálogo de reserva de restaurante, por outro lado, as respostas devem ser mais coloquiais e guiar o usuário pelo processo de reserva sem divagar. Mais uma vez, diz a Microsoft, pode ser usada uma mistura de modelos de linguagem especializados e regras manuscritas.

O ampliador LLM reduz os erros do chatbot, mas são necessárias mais pesquisas

Em testes realizados pela Microsoft, a equipe mostra que o ampliador LLM pode melhorar os resultados do ChatGPT: e 12,9 por cento mais humanos do que respostas nativas do ChatGPT.

No benchmark Wiki QA, onde o modelo deve responder a questões factuais que muitas vezes requerem informações espalhadas por várias páginas da Wikipedia, o LLM-Augmenter também aumenta significativamente o número de afirmações corretas, mas não se aproxima de modelos treinados especificamente para esta tarefa.

A Microsoft planeja atualizar seu trabalho com um modelo treinado com ChatGPT e mais feedback humano sobre seus próprios resultados. O feedback humano e a interação também serão usados ​​para treinar os intensificadores do LLM. A equipe sugere que mais melhorias são possíveis com designs de prompt refinados.

O artigo não revela se o ampliador LLM ou uma estrutura semelhante é usado para o chatbot do Bings.