Minecraft e a eficácia irracional dos dados

O MineDojo destina-se a lançar as bases para o futuro da inteligência artificial – no Minecraft. As pesquisas esperam que isso ajude a engenharia de agentes de IA incorporados que exploram mundos e se aprimoram constantemente.

No verão de 2022, os cientistas fundaram o Center for Research on Foundation Models (CRFM) no Stanford Institute for Human-Centered Artificial Intelligence (HAI).

O termo “modelo de fundação” foi proposto por pesquisadores de Stanford para qualquer modelo de IA “que é treinado em dados amplos (geralmente usando auto-supervisão em escala) que pode ser adaptado (por exemplo, ajustado) para uma ampla gama de tarefas a jusante” .

Crucialmente, modelos como o GPT-3 da OpenAI estabeleceram um “paradigma para a construção de sistemas de IA” nos meses e anos seguintes ao lançamento. As características mais importantes dos modelos de fundação, disseram eles, eram a surgimento do modelo e suas capacidades – algumas das quais não foram previstas – e a homogeneização de seus métodos, que são usados ​​em muitos domínios além do texto.

“GPT3 é poderoso, mas cego”

Apesar das capacidades impressionantes, modelos como o GPT-3 ainda têm muitas limitações e são restritos a um único domínio. Como resultado, alguns pesquisadores estão investigando como construir sobre a fundação: Métodos como sugestão de cadeia de pensamento , acesso Python , DigaPode controle do robô, ou vinculando a um simulador de física são apenas algumas das abordagens que estendem as habilidades de grandes modelos de linguagem.

Pesquisadores da Nvidia, Caltech, Stanford, Columbia, SJTU e UT Austin veem um futuro alternativo para modelos de fundação, “GPT3 é poderoso, mas cego. O futuro dos Foundation Models serão agentes incorporados que agem proativamente, exploram o mundo infinitamente e se aprimoram continuamente”, disse Linxi Fan, pesquisador da Nvidia, no Twitter.

No entanto, isso requer novas abordagens, de acordo com os pesquisadores. Os agentes de IA fizeram grandes progressos em domínios específicos, como os jogos Atari ou Go. Mas eles ainda não podem generalizar em uma ampla gama de tarefas e habilidades.

Três pilares principais são necessários para o surgimento de agentes corporificados generalistas, escrevem os pesquisadores em um novo artigo.

“Primeiro, o ambiente no qual o agente atua precisa permitir uma variedade ilimitada de objetivos abertos.”

A evolução natural é possibilitada pelas condições ecológicas infinitamente diversas da Terra. Este processo tem acontecido incessantemente por bilhões de anos. Os algoritmos de treinamento de hoje para agentes de IA, por outro lado, não mostraram nenhum novo progresso após convergência em ambientes estreitos, afirmam os pesquisadores.

“Um banco de dados em grande escala de conhecimento prévio é necessário para facilitar o aprendizado em ambientes abertos.”

Assim como os humanos costumam aprender na Internet, os agentes também devem ser capazes de reunir conhecimentos práticos, escreve a equipe. Isso porque, em um mundo complexo, seria extremamente ineficiente para os agentes de IA aprender do zero por tentativa e erro. As fontes podem incluir grandes quantidades de demonstrações em vídeo, tutoriais multimídia e discussões em fóruns.

“A arquitetura do agente precisa ser flexível o suficiente para realizar qualquer tarefa em ambientes abertos e escalável o suficiente para converter fontes de conhecimento em larga escala em insights acionáveis.”

Este requisito motiva o desenvolvimento de um agente que se baseia em prompts de tarefa de linguagem natural e usa o paradigma de pré-treinamento Transformer para efetivamente internalizar o conhecimento de fontes multimodais. Uma espécie de “GPT3 incorporado”, disse Fan.

MineDojo é um kit de ferramentas de treinamento para Minecraft AIs

A equipe está reunindo essas ideias com MineDojo, uma estrutura aberta para pesquisa de agentes incorporados. O MineDojo inclui um conjunto de simuladores baseado no Minecraft, um extenso banco de dados da Internet e um modelo básico para agentes.

Ao contrário dos ambientes Minecraft alternativos para pesquisa de IA, como o MineRL, o MineDojo oferece suporte a entradas visuais versáteis, como RGB, voxel, LIDAR e GPS. Inclui todos os mundos do Minecraft (Overworld, Nether, End) e inclui mais de 3.000 tarefas. O MineDojo é, portanto, um dos maiores benchmarks de agentes.

Uma classe de tarefas é fácil de avaliar e decorre das quatro categorias sobrevivência, colheita, árvore tecnológicaou combate. Eles contêm tarefas como “tosar ovelhas para ganhar lã”. Além disso, existem tarefas criativas que não possuem critérios de sucesso bem definidos ou facilmente automatizados. Podem ser tarefas como “Construir uma casa mal-assombrada com zumbis” ou “Correr com um porco”. O ambiente, clima e iluminação também podem ser personalizados em detalhes.

Além do simulador, a equipe está lançando uma gigantesca base de conhecimento multimodal do Minecraft: MineDojo oferece uma extensa coleção de mais de 730.000 vídeos do YouTube com transcrições cronometradas, mais de 6.000 páginas wiki e mais de 340.000 postagens do Reddit com conteúdo multimídia. O banco de dados destina-se a servir como material de treinamento para novos agentes de IA.

Equipe MineDojo revela seu agente Minecraft

A equipe também está fornecendo seu próprio agente de IA para o Minecraft. Os pesquisadores estão se inspirando no CLIP da OpenAI e usando vídeos do Minecraft no YouTube para treinar o MineCLIP, um modelo de linguagem de vídeo contrastante que vincula legendas em linguagem natural a segmentos de vídeo associados.

O MineCLIP calcula a correlação entre uma string de objetivo de linguagem de vocabulário aberto e um trecho de vídeo de 16 quadros do banco de dados do YouTube. A pontuação de correlação aprendida é usada como uma “função de recompensa multitarefa de vocabulário aberto para treinamento de RL”. O agente aprende, assim, a executar ações seguindo prompts de texto.

1675260776 697 Minecraft e a eficacia irracional dos dados

A qualidade do sinal de recompensa fornecido pelo MineCLIP totalmente treinado é tão alta que a diferença entre o vídeo ruidoso do YouTube e as imagens renderizadas no simulador não é relevante. Além disso, elimina a necessidade de projetar manualmente as funções de recompensa para cada tarefa do MineDojo, afirma o documento.

Particularmente em tarefas criativas em que não há um critério de sucesso simples, o MineCLIP também serve como uma métrica de pontuação automatizada que pode avaliar, por exemplo, se uma casa foi construída com piscina e corresponde bem às pontuações humanas, dizem os pesquisadores.

MineCLIP é apenas o começo

Em um teste de 12 tarefas, o agente treinado no MineCLIP resolveu a maioria dessas tarefas e obteve desempenho competitivo para agentes treinados com modelos de recompensa cuidadosamente projetados.

Em algumas tarefas, o MineCLIP superou outros agentes, com uma taxa de sucesso até 73% maior. O agente também teve um desempenho relativamente bom em tarefas criativas abertas.

1675260776 286 Minecraft e a eficacia irracional dos dados

Os agentes do MineCLIP também podem lidar melhor com terrenos, clima e iluminação invisíveis, escrevem os pesquisadores. Se eles já foram treinados para executar as doze tarefas, eles podem generalizar até certo ponto para novas variações dessas tarefas, como caçar uma nova espécie de animal no Minecraft.

Os pesquisadores enfatizam que o MineCLIP é apenas uma das muitas maneiras de usar o banco de dados MineDojo. Por exemplo, o MineCLIP não faz uso do conteúdo Wiki e Reddit que também está disponível – mas estes também possuem grande potencial para novos algoritmos, eles escrevem em seu artigo.

A abordagem apresentada também não usa orientação detalhada. Esta é uma ideia que é utilizada, entre outras, no já referido SayCan e é uma ideia possível para sistemas futuros, segundo a equipa.

Pré-treinamento em vídeo do MineCLIP e OpenAI.

Segundo Fan, o agente mostrado é um pequeno passo em direção à visão de um “GPT3 incorporado”. Ele disse que o MineCLIP serve como um “modelo de recompensa básico” que pode ser inserido em qualquer algoritmo de aprendizado por reforço. Pré-treinamento de vídeo (VPT) da OpenAI é, portanto, uma abordagem complementar e pode ser ajustada com o MineCLIP para resolver tarefas abertas condicionadas à linguagem.

O VPT também conta com treinamento em vídeo. Mas enquanto o MineCLIP aprende com a transcrição de vídeo e texto, o VPT aprendeu com a entrada de vídeo e jogo: OpenAI coletou 70.000 horas de filmagens do YouTube do Minecraft, além de outras 2.000 horas de jogo, incluindo dados de entrada de teclado e mouse.

1675260777 266 Minecraft e a eficacia irracional dos dados

Usando 2.000 horas de vídeo, a OpenAI treinou um Modelo de Dinâmica Inversa (IDM) que poderia então prever as entradas de vídeo do YouTube. Isso resultou em um enorme conjunto de dados de mais de 70.000 horas de vídeo, incluindo dados de entrada de teclado e mouse, para treinar o modelo de base VPT.

Esses dados de entrada são valiosos para algoritmos que aprendem a imitar o comportamento humano, e o método desenvolvido com o VPT poderia teoricamente ser usado para qualquer tipo de interação de computador para a qual haja vídeo suficiente.

A OpenAI também vê os benefícios do treinamento de texto: no artigo do VPT, a empresa descreve um teste no qual processa legendas junto com vídeos, já que muitas vezes estão diretamente relacionadas ao conteúdo do vídeo – um fato que o MineCLIP já explorou.

A eficácia incomum dos dados

Ambos os sistemas mostram claramente uma tendência para agentes de IA: semelhante ao processamento de linguagem natural ou análise e geração de imagens, grandes quantidades de dados permitem modelos de base que podem aprender novas tarefas por meio de ajustes finos.

Por exemplo, OpenAI usou VPT para treinar um agente de IA para fazer uma picareta de diamante em dez minutos . De acordo com a OpenAI, isso está no nível humano médio.

Se a abordagem de dados e dimensionamento é suficiente para as ideias da equipe do MineDojo, agora terá que ser visto. Se suas ideias estiverem corretas, em breve poderemos estar olhando para agentes de IA generalizantes incorporados com um modelo de mundo do Minecraft – uma espécie de teste para sistemas mais complexos que podem operar em nosso mundo.

Mais informações sobre o MineDojo estão disponíveis no página do projeto MineDojo . O código, dados e mais estão disponíveis em GithubGenericName .