O método de treinamento do ChatGPT pode melhorar a visão computacional

O ChatGPT da OpenAI se beneficia do treinamento com feedback humano. O Google agora está analisando como esse método também pode melhorar os modelos de visão computacional.

Os primeiros modelos de aprendizado profundo para reconhecimento de objetos foram baseados em aprendizado supervisionado com um grande número de imagens rotuladas. Por exemplo, uma imagem de um gato vem com o rótulo digital “gato”. Desta forma, o sistema aprende a relação entre a palavra e a imagem.

Com o advento e o sucesso da arquitetura Transformer no processamento de linguagem, os pesquisadores começaram a aplicar com sucesso os Transformers e o aprendizado autossupervisionado à visão computacional.

Apenas o treinamento com imagens rotuladas se tornou obsoleto: como os modelos de texto, os modelos de imagem aprenderam com grandes quantidades de dados não estruturados. O Vision Transformer do Google foi uma das primeiras arquiteturas a atingir o nível dos modelos supervisionados mais antigos.

O aprendizado por reforço pode melhorar modelos de IA pré-treinados

Após o lançamento do grande modelo de linguagem GPT-2, a OpenAI começou a experimentar modelos de linguagem de treinamento usando aprendizado por reforço com feedback humano (RLHF) . Isso ocorre porque grandes modelos de linguagem pré-treinados, embora extremamente versáteis, são difíceis de controlar – um fato que A Microsoft está experimentando atualmente com seu chatbot Bing .

O RLHF, por outro lado, usa sinais de recompensa para ensinar a um grande modelo de linguagem quais gerações de texto são desejáveis ​​e quais são incorretas ou indesejáveis. Como ChatGPT mostra, isso resulta em um modelo mais alinhado e parece ter um efeito positivo no desempenho geral do sistema.

Os pesquisadores do Google agora pegaram essa descoberta e testaram se os modelos de visão computacional também podem se beneficiar do aprendizado por reforço (RL) com sinais de recompensa. A equipe treinou vários modelos de transformadores de visão e, em seguida, usou um algoritmo simples de aprendizado por reforço para otimizá-los para tarefas específicas, como reconhecimento de objetos, segmentação panóptica ou coloração de imagens.

Os modelos de visão computacional também se beneficiam dos sinais de recompensa

A equipe mostra que os modelos de reconhecimento de objetos e segmentação panóptica aprimorados com RL estão no mesmo nível dos modelos especializados para essas tarefas. O modelo de colorização também tem melhor desempenho graças ao RL.

Como um estudo de prova de conceito, o trabalho do Google mostra que o ajuste fino de modelos de visão computacional por meio de aprendizado por reforço funciona de maneira semelhante ao processamento de linguagem natural e pode levar a modelos melhores.

O próximo passo seria combinar esses sinais de recompensa com feedback humano – como é o caso do ChatGPT. Os pesquisadores veem isso como uma área de pesquisa promissora e gostariam de aplicar o RLHF na visão computacional para tarefas desafiadoras, como ajustar saídas de compreensão de cena para agarrar robôs. Aqui, o RLHF pode permitir melhores modelos de percepção e aumentar a probabilidade de uma compreensão bem-sucedida.