O Microsoft VALL-E oferece síntese de texto para fala com clonagem de voz eficiente

O modelo de IA generativa VALL-E da Microsoft converte texto em fala. Ele usa métodos derivados de grandes modelos de linguagem.

Os sistemas de conversão de texto em fala tornaram-se recentemente mais poderosos graças às redes neurais. Na síntese de áudio, eles convertem fonemas em espectrogramas, os processam em sua rede e, então, geram as formas de onda finais.

Para treinamento, os modelos atuais geralmente exigem gravações de alta qualidade. Gravações de baixa qualidade coletadas da Internet levam a resultados ruins.

Além disso, a qualidade da fala gerada diminui significativamente para falantes que não fazem parte do conjunto de dados de treinamento. Para melhorar o desempenho em tais cenários de tiro zero, os pesquisadores usam métodos como adaptação de alto-falante ou codificação de alto-falante. Eles exigem um ajuste fino adicional ou vários recursos pré-projetados.

Microsoft VALL-E aprende com GPT-3 & Co.

Pesquisadores da Microsoft agora estão demonstrando o VALL-E, um modelo de conversão de texto em fala baseado na receita bem-sucedida de grandes modelos de linguagem. “Em vez de projetar uma rede complexa e específica para esse problema, a solução definitiva é treinar um modelo com dados grandes e diversos o máximo possível”, diz o artigo.

O VALL-E foi treinado com 60.000 horas de fala em inglês de 7.000 falantes. Segundo a equipe, isso é mais de 100 vezes a quantidade de dados usados ​​anteriormente em campo. A Microsoft está usando o enorme conjunto de dados LibriLight, que a equipe transcreveu com IA.

VALL-E processa um combinação de prompts de texto e prompts acústicos de três segundos, que são representados diretamente como tokens acústicos na rede. Os tokens acústicos na rede são então convertidos em formas de onda por um decodificador de codec de áudio. O VALL-E, portanto, não faça o desvio através dos espectrogramas usuais.

VALL-E aproveita as vantagens de grandes modelos de linguagem

Em seus testes, os pesquisadores mostram que o VALL-E pode gerar prompts de texto usando a voz especificada no prompt acústico.

Alerta acústico

Prompt de texto

“O marido dela estava muito preocupado que pudesse ser fatal.”

VALL-E

O modelo também herda aspectos do trecho de áudio: O ruído de uma gravação telefônica também aparece na continuação sintetizada.

Alerta acústico

Prompt de texto

“Hum, temos que pagar essa taxa de segurança apenas no caso de ela danificar alguma coisa, mas hum.”

VALL-E

Além disso, o modelo adota tons de voz influenciados por emoções, como a de um orador zangado.

Alerta acústico

Prompt de texto

“Temos que reduzir o número de sacolas plásticas.”

VALL-E

Quando o prompt acústico tem reverberação, o VALL-E também pode sintetizar a fala com reverberação, enquanto a linha de base emite uma fala limpa. Nossa explicação é que o VALL-E é treinado em um conjunto de dados de grande escala que consiste em mais condições acústicas do que os dados usados ​​pela linha de base, portanto, o VALL-E poderia aprender a consistência acústica em vez de um ambiente limpo apenas durante o treinamento.

(…)

Além disso, descobrimos que o VALL-E pode preservar a emoção do locutor e o ambiente acústico do prompt acústico em síntese

do papel

Isso é interessante porque VALL-E não foi explicitamente treinado para, por exemplo, integrar emoções em vozes geradas. Segundo os pesquisadores, o modelo apresenta algumas capacidades emergentes e pode aprender em contexto – assim como grandes modelos de linguagem.

Mais exemplos de áudio estão disponíveis em GitHub . O código não está disponível.