Sumário
A Deepmind apresenta o novo benchmark TAP-Vid com conjunto de dados. Ele ajuda a treinar sistemas de visão computacional que podem rastrear todos os pontos dos vídeos. O modelo TAP-Net demonstra isso.
Os atuais sistemas de IA com conhecimento do mundo são treinados principalmente com texto e imagens anotadas. O treinamento com dados de vídeo é considerado um horizonte futuro, mas os dados são complexos de manusear. Entre outras coisas, é mais difícil para os sistemas de IA analisar vídeos em comparação com textos ou imagens porque estão em movimento e contêm muitos detalhes.
O novo benchmark da Deepmind, rastreando qualquer ponto em um vídeo (TAP), pode acelerar a capacidade dos sistemas visuais de IA de analisar o vídeo.
Deepmind apresenta benchmark e conjunto de dados TAP Vid junto com o modelo de rastreamento TAP Net
A Deepmind apresenta o TAP-Vid, um benchmark para rastreamento de pontos em vídeos completo com conjunto de dados, e o TAP-Net, um sistema de IA de demonstração treinado com esses dados que pode rastrear pontos arbitrários em superfícies em vídeos. O vídeo a seguir mostra uma breve demonstração.
Vídeo: Deepmind
Em vez de apenas rastrear o objeto, o TAP-Net pode rastrear superfícies deformadas em movimento. Sistemas comuns de rastreamento de IA segmentam vídeos em áreas individuais ou os dividem em caixas, o que é menos preciso do que rastrear pontos individuais.
O rastreamento de pontos também tem outras vantagens: os sistemas de IA podem tirar conclusões sobre formas 3D, propriedades físicas e interações de objetos com base em mudanças nas superfícies, proporcionando uma melhor compreensão física do mundo.
Esse conhecimento mais rico do mundo, por sua vez, pode ser a base para uma nova geração de sistemas de IA para muitas aplicações, como carros autônomos ou robôs que interagem com mais precisão com seu ambiente.
As contribuições deste artigo são triplas. Primeiro, projetamos e validamos um algoritmo que auxilia os anotadores a rastrear pontos com mais precisão. Em segundo lugar, construímos um conjunto de dados de avaliação com 31.951 (31.301+650) pontos rastreados em 1.219 (1.189 + 30) vídeos reais. Em terceiro lugar, exploramos vários algoritmos de linha de base e comparamos nosso conjunto de dados de rastreamento de ponto com o conjunto de dados de rastreamento de ponto existente mais próximo – rastreamento de ponto-chave humano JHMDB – demonstrando que o treinamento usando nossa formulação do problema pode aumentar o desempenho nesse conjunto de dados muito mais limitado.
do papel
Os conjuntos de dados TAP-Vid consistem em vídeos reais com anotações humanas precisas de pontos de rastreamento e vídeos sintéticos com pontos de rastreamento perfeitos: TAP-Vid-Kinetics e TAP-Vid-DAVIS contêm vídeos reais com anotações pontuais coletadas por humanos. o sintético Conjunto de dados TAP-Vid-Kubric e Empilhamento TAP-Vid-RGB foram criados em um ambiente de robô simulado.
O TAP-Net rastreia com mais precisão do que os atuais sistemas de rastreamento de IA
Treinado com dados sintéticos, o TAP-Net rastreia significativamente melhor do que os sistemas atuais em seu próprio benchmark TAP-Vid, de acordo com a Deepmind. As limitações incluem líquidos ou objetos transparentes, que ainda não podem ser rastreados com segurança. Um problema com vídeos anotados por humanos é que as anotações às vezes são imprecisas ou erradas, escrevem os pesquisadores.
Os conjuntos de dados Kinetics, DAVIS e RGB-stacking, bem como o modelo TAP-Net, são disponível gratuitamente no Github .