Onde está o “DALL-E para música”?

Digite uma linha de texto e ouça uma música depois de alguns segundos? Ainda há alguns obstáculos a serem superados antes que isso aconteça, diz um analista.

Primeiro, foi o texto gerado por IA, depois as imagens, que se tornaram mais sofisticadas recentemente. Vídeo HD e geradores de IA 3D também estão em obras.

Isso levanta justamente a questão: Onde está um serviço semelhante ao GPT-3 , meio da jornada , ou DALL-E para a indústria da música? Cherie Hu, da Water and Music, uma rede de pesquisa e inteligência para a nova indústria da música, apresentou alguns argumentos em um tópico do Twitter sobre por que esse serviço está demorando a chegar.

Poucos dados de treinamento, muitos direitos autorais

O primeiro ponto que ela levanta é a falta de dados de treinamento. Embora cada um dos modelos de texto para imagem disponíveis tenha sido treinado com dezenas de terabytes de dados, não há tantos dados públicos de treinamento para música. Para chegar a esse ponto, diz Hu, você teria que treinar um modelo com todas as músicas publicadas e também acessar os rascunhos privados de DAWs como GarageBand, Ableton Live ou Logic.

Tal como acontece com os geradores de imagens, considerações sobre direitos autorais também desempenham um papel importante: é verdade que milhões de faixas de música podem ser pirateadas de serviços de streaming de música e usadas para treinamento. Mas isso traria imediatamente as grandes gravadoras e seus advogados para a cena.

“Os advogados da indústria da música têm mais poder do que em qualquer outra indústria criativa”, diz Hu. Alguns Artistas e codificadores já estão lutando contra a IA generativa que pode infringir os direitos autorais.

Falta de experiência fora da pesquisa acadêmica

Enquanto avanços estão sendo feitos pela comunidade de código aberto em AIs de imagem e texto, a indústria da música ainda é dominada pela academia. “Há menos dados, então o trabalho é mais difícil e mais lento. E o Nexus de pessoas que conhecem aprendizado de máquina, produção musical, processamento de sinal, etc., é minúsculo.”

Segundo Wu, isso também tem a ver com o fato de que a música é mais difícil de filtrar e, sobretudo, de avaliar do que as artes visuais. “Literalmente leva tempo para ouvir e avaliar uma música de um minuto. Ao mesmo tempo, você pode digitalizar centenas de imagens.”

Hu resume que os melhores modelos de IA para música atualmente…

  • exigem mais conhecimento técnico especializado para executar,
  • demorar mais para correr,
  • são mais caros para operar,
  • tem apenas saída OK,
  • e são mais difíceis de atrair a atenção do público.

Quando a IA generativa para música tem seu momento intermediário?

No entanto, Hu chega a uma conclusão que não deve fazer a indústria da música respirar aliviada: “Tudo isso vai mudar muito em breve, dada a rapidez com que o cenário criativo da IA ​​está evoluindo”.

Os primeiros exemplos incluem startups como Mubert que recentemente revelou um modelo de conversão de texto em música e Divisão de IA da Sony, que está pesquisando sintetizadores neurais .

O projeto de código aberto HarmonAI também merece destaque. Ela se descreve como uma organização orientada para a comunidade que fornece ferramentas de código aberto para áudio generativo para tornar e promover a produção musical mais acessível a todos.

Seu trabalho atual, “Dance Diffusion”, um modelo de áudio generativo, já está disponível para testes através do Colab de Difusão de Dança . Harmonai é apoiado por Startup Stability AI com sede em Londres que também possibilitou a modelo de Stable Diffusion de código aberto .