O sistema AI MinD-Vis decodifica imagens de exames de ressonância magnética

Um novo sistema de IA reconstrói imagens de dados de ressonância magnética com dois terços mais precisão do que os sistemas mais antigos. Isso é possível por mais dados e modelos de difusão.

Os modelos de IA podem decodificar pensamentos? Experimentos com grandes modelos de linguagem, como os de um Meta grupo de pesquisa liderado por Jean-Remi King tente decodificar palavras ou frases de dados de ressonância magnética usando modelos de linguagem.

Recentemente, um grupo de pesquisa demonstrou uma Sistema de IA que decodifica dados de ressonância magnética de uma pessoa assistindo a um vídeo em texto descrevendo alguns dos eventos visíveis.

Essas tecnologias podem um dia levar a interfaces avançadas que, por exemplo, permitam que pessoas com deficiência se comuniquem melhor com o ambiente ou controlem um computador.

Um novo estudo agora depende de modelos de difusão para reconstruir imagens de dados de ressonância magnética humana. Os modelos de difusão também estão disponíveis em sistemas avançados de IA de imagem, como DALL-E 2 ou Difusão estável . Eles podem reconstruir imagens a partir do ruído.

O MinD-Vis conta com difusão e 340 horas de exames de ressonância magnética

Pesquisadores da Universidade Nacional de Cingapura, da Universidade Chinesa de Hong Kong e da Universidade de Stanford demonstram “Modelagem cerebral mascarada esparsa com modelo de difusão latente duplamente condicionada para decodificação da visão humana” – MinD-Vis para abreviar.

O trabalho visa criar um modelo de IA baseado em difusão que pode decodificar estímulos visuais a partir de dados cerebrais, deitado uma base para vincular a visão humana e da máquina.

Primeiro, o sistema de IA aprende uma representação efetiva dos dados de ressonância magnética por meio do aprendizado auto-supervisionado. As incorporações desses dados servem como condição para a geração de imagens do modelo de difusão.

Para o treinamento, a equipe conta com dados do Human Connectome Project e do Generic Object Decoding Dataset. No total, os dados de treinamento atingem 136.000 segmentos de ressonância magnética de 340 horas de varreduras de ressonância magnética, o maior conjunto de dados até hoje para um sistema de IA de decodificação cerebral.

MinD-Vis captura detalhes semânticos e recursos de imagem

Enquanto o primeiro conjunto de dados consiste inteiramente em dados de ressonância magnética, o segundo inclui 1.250 imagens diferentes de 200 classes. A equipe reteve 50 das imagens para teste.

Para validação adicional de sua abordagem, os pesquisadores também contaram com o conjunto de dados Brain, Object, Landscape, que inclui 5.254 pares de imagens de ressonância magnética.

De acordo com a publicação, o MinD-Vis supera significativamente os modelos mais antigos: o sistema é 66% melhor na captura de conteúdo semântico e 41% melhor na qualidade das imagens geradas.

No final, porém, isso ainda deixa o sistema longe de ser capaz de ler pensamentos de forma confiável: apesar da melhoria, a precisão na captura de conteúdo semântico é de 23,9%.

Além disso, a qualidade das imagens reconstruídas variou entre diferentes sujeitos. Um fenômeno bem conhecido no campo de pesquisa, escreve a equipe. No entanto, algumas das classes de imagem testadas não foram incluídas no conjunto de dados de treinamento. Mais dados poderiam, portanto, melhorar ainda mais a qualidade do sistema.

Mais informações e exemplos estão disponíveis no página do projeto MinD-Vis .