AudioGen: Meta AI gera áudio a partir de texto

AudioGen é o próximo projeto text-to-X: o sistema AI gera áudio que corresponde à entrada de texto.

Pesquisadores da Meta AI e da Universidade Hebraica de Jerusalém apresentam o AudioGen: um modelo de IA generativa baseado em Transformer que pode gerar áudio do zero para corresponder à entrada de texto ou estender a entrada de áudio existente.

Assobiando na floresta – enquanto os pássaros cantam e os cachorros latem

Segundo os pesquisadores, o modelo de IA resolve problemas complexos de áudio. Por exemplo, pode distinguir entre diferentes objetos e separá-los acusticamente, como quando várias pessoas falam ao mesmo tempo. Também pode simular ruído de fundo, como reverberação.

Para treinar o modelo nessas habilidades, os pesquisadores usaram uma técnica de aumento na fase de aprendizado que mistura diferentes amostras de áudio. Dessa forma, o modelo aprendeu a separar várias fontes. No total, os pesquisadores reuniram dez conjuntos de dados de áudio e anotações de texto correspondentes.

Posteriormente, o AudioGen pode gerar novas composições de áudio que não faziam parte do conjunto de dados de treinamento nesta compilação, como uma pessoa andando pela floresta assobiando enquanto os pássaros cantam ao fundo. Tudo o que é necessário é um prompt de texto, como mostra o vídeo a seguir.

Vídeo: Kreuk et al.

O sistema também pode gerar música e até cantar, segundo o primeiro autor Felix Kreuk, mas não foi projetado para isso e atualmente oferece poucas opções de controle.

Os pesquisadores querem publicar seu modelo

A equipe de pesquisa fez com que humanos avaliassem os resultados do AudioGen por meio de Amazonda plataforma Mechanical Turk. Eles avaliaram a qualidade do áudio, bem como o quão bem o texto e o áudio se encaixam, ou seja, a relevância. Mais de 85% das 100 amostras de áudio selecionadas aleatoriamente continham pelo menos dois conceitos, por exemplo, “Um cachorro late enquanto um pássaro canta”.

Os testadores classificaram as amostras de áudio em uma escala de 1 a 100. No total, a equipe de pesquisa teve quatro modelos avaliados, incluindo o DiffSound baseado em CLIP com 400 milhões de parâmetros e três AudioGen baseados em T5 com 285 milhões a um bilhão de parâmetros.

O maior modelo AudioGen obteve a maior pontuação em qualidade (cerca de 72 pontos) e relevância (cerca de 68 pontos) com uma clara diferença para o Diffsound (cerca de 66/55 pontos).

A equipe de pesquisa vê o AudioGen como o primeiro passo para melhores modelos de texto para áudio no futuro. A tecnologia também pode permitir o processamento de áudio semântico ou apoiar a separação de fontes de áudio de unidades discretas, dizem eles. Um lançamento do modelo está em andamento, de acordo com Kreuk.

Em meados de setembro, O Google introduziu o AudioLM que também usa técnicas de grandes modelos de linguagem para completar frases faladas, por exemplo, e gerar áudio totalmente novo.