Sumário
A aprendizagem auto-supervisionada pode explicar a aprendizagem da linguagem humana? Um novo estudo compara o algoritmo Wav2Vec com gravações fMRI.
Os modelos de IA treinados e autossupervisionados estão se aproximando ou já alcançaram o desempenho humano em áreas como reconhecimento de objetos, tradução e reconhecimento de fala. Vários estudos também mostram que pelo menos as representações individuais desses algoritmos se correlacionam com as dos cérebros humanos.
Por exemplo, a atividade neural das camadas intermediárias dos modelos GPT pode ser mapeada para o cérebro durante o consumo de texto ou linguagem falada. Ao fazer isso, a atividade de uma camada mais profunda da rede neural pode ser transformada em imagens sintéticas de fMRI (ressonância magnética funcional) e comparada com imagens reais de humanos.
Em um artigo, pesquisadores da Meta mostraram que poderiam prever respostas cerebrais à linguagem com base em ativações de GPT-2 em resposta às mesmas histórias. “Quanto mais os sujeitos entendem as histórias, melhor o GPT-2 prevê sua atividade cerebral”, disse Jean-Remi King, pesquisador do CNRS na Ecole Normale Supérieure e pesquisador de IA na Meta.
Os modelos GPT não podem explicar a aquisição da linguagem
No entanto, modelos como o GPT-2 diferem significativamente do cérebro de várias maneiras. Por exemplo, eles exigem grandes quantidades de dados para treinamento e dependem de texto em vez de dados brutos do sensor. Para ler os 40 gigabytes de texto puro usados para treinar o GPT-2, a maioria das pessoas precisaria de várias vidas.
Os modelos são, portanto, de uso limitado para aprender mais sobre o cérebro humano – um objetivo declarado da equipe de pesquisa de King na Meta. Os insights obtidos dessa maneira também devem permitir uma melhor inteligência artificial.
Os esforços estão atualmente focados nos fundamentos da aquisição da linguagem: “Humanos e crianças, em particular, adquirem linguagem de forma extremamente eficiente. Eles aprendem a fazer isso rapidamente e com uma quantidade extremamente pequena de dados. Esta requer uma habilidade que no momento permanece desconhecido “, diz King.
Em um novo trabalho de pesquisa, King e sua equipe estão investigando se o algoritmo Wav2Vec pode lançar luz sobre essa habilidade humana especial.
Wav2Vec é treinado com 600 horas de áudio
O Wav2Vec 2.0 é um modelo de transformador híbrido com camadas convolucionais que é treinado de forma auto-supervisionada com dados de áudio, aprendendo uma representação latente das formas de onda das gravações de fala. Meta usa o sistema e seu antecessor Wav2Vec para reconhecimento de fala auto-supervisionado, tradução ou geração de fala.
No novo trabalho de Meta, King e sua equipe comparam um modelo Wav2Vec treinado com 600 horas de gravações de fala com gravações fMRI de 417 pessoas ouvindo audiolivros. As 600 horas correspondem aproximadamente à quantidade de linguagem falada que os bebês ouvem durante a aquisição inicial da linguagem, de acordo com os pesquisadores.
?Pré-impressão:
`Rumo a um modelo realista de processamento de fala no cérebro com aprendizagem auto-supervisionada’ :https://t.co/rJH6t6H6sm
por J. Millet*, @c_caucheteux* e nossa equipe maravilhosa:
Os 3 principais resultados resumidos abaixo? pic.twitter.com/mdrJpbrb3M
– Jean-Rémi King (@JeanRemiKing) 6 de junho de 2022
o experimento mostrou que o aprendizado auto-supervisionado é suficiente para um algoritmo de IA como o Wav2Vec aprender representações semelhantes ao cérebro, disse o rei. No estudo, os pesquisadores mostram que a maioria das áreas do cérebro se correlaciona significativamente com as ativações do algoritmo em resposta à mesma entrada de linguagem.
Além disso, a hierarquia aprendida pelo algoritmo corresponde à do cérebro. Por exemplo, o córtex auditivo está mais bem sintonizado com a primeira camada transformadora, enquanto o córtex pré-frontal está mais bem sintonizado com as camadas mais profundas.
A pesquisa de IA está no caminho certo
Usando dados de fMRI de mais 386 indivíduos que tiveram que distinguir sons não linguísticos de fala em uma língua estrangeira e em sua própria língua, os pesquisadores também mostram que as representações auditivas, linguísticas e específicas da linguagem aprendidas pelo modelo se correlacionam com aquelas do cérebro humano.
Modelar a inteligência em nível humano ainda é um objetivo distante, disse King. Mas o surgimento de funções semelhantes ao cérebro em algoritmos auto-supervisionados, diz ele, sugere que a pesquisa de IA está no caminho certo.
King provavelmente está abordando os críticos do paradigma de aprendizado profundo. Recentemente, por exemplo, Gary Marcus criticou o debate iniciado por Gato multitalentoso de Deepmind sobre o papel da escala no caminho para a inteligência artificial de nível humano.
Marcus chamou essa abordagem de “Scaling-Uber-Alles” de arrogância e parte de uma pesquisa de “alt intelligence”: “Alt Intelligence não é sobre construir máquinas que resolvem problemas de maneiras que têm a ver com a inteligência humana. Trata-se de usar grandes quantidades de dados – muitas vezes derivados do comportamento humano – como um substituto para a inteligência.”