O novo Translator da Microsoft alcança melhores resultados ao traduzir para vários idiomas. A base para isso é uma arquitetura de IA que permite que as redes neurais processem tarefas de forma mais específica enquanto computam com mais eficiência.
A chamada arquitetura “Mixture-of-Experts” (MoE) envolve a substituição de uma única rede de transformadores neurais por uma série das chamadas redes de especialistas. O modelo então decide qual tarefa é delegada para qual rede de especialistas. Uma rede especializada pode representar idiomas individuais, por exemplo.
A arquitetura de IA também é construída em amplitude em vez de profundidade, o que permite mais parâmetros com menos camadas. O objetivo da arquitetura MoE é criar melhores resultados com menos esforço computacional.
Tradutor: traduções até 15% melhores
A Microsoft agora está usando a abordagem MoE para seu próprio serviço Tradutor, melhorando o desempenho do programa em todos os aspectos. As traduções de inglês para eslovaco são as que mais se beneficiam, com resultados cerca de 15% melhores, assim como de inglês para bósnio e búlgaro, cada uma com pouco menos de 12%. A Microsoft avaliou as traduções em testes cegos com humanos.
A Microsoft também treinou a rede MoE para ser “esparsa” de acordo com a prática atual. As redes neurais treinadas dessa maneira ativam apenas os elementos que são necessários no momento ao processar uma tarefa. Em modelos de IA treinados convencionalmente, todo o modelo está ativo para cada tarefa, o que requer mais energia. A Microsoft compara isso ao aquecimento de uma casa por meio de radiadores individuais em salas, em vez de por meio de um forno central.
A Microsoft também usou o chamado aprendizado de transferência no treinamento de IA, que reconhece elementos linguísticos comuns de diferentes idiomas para que as tarefas de compreensão do idioma possam ser transferidas de um idioma para outro. Línguas raramente faladas, para as quais há pouco material de treinamento original disponível, se beneficiam particularmente disso.
Arquitetura MoE ganha aceitação
O novo modelo Translator faz parte O “Project Z-Code” da Microsoft para modelos multimodais de IA que combinam dados como texto, visão, áudio e fala. O objetivo, segundo a Microsoft, são modelos de IA que podem falar, ver, ouvir e compreender. Os modelos treinados como parte do Projeto Z devem ser baseados na abordagem MoE.
“Essa arquitetura permite escala massiva no número de parâmetros do modelo, mantendo a quantidade de computação constante”, escreve a Microsoft.
No exemplo do Translator, eram necessários 20 modelos diferentes para traduzir entre dez idiomas usando o inglês como idioma intermediário. O novo modelo de produção de código Z agora pode traduzir diretamente todos os dez idiomas de e para o inglês. Modelos de pesquisa de código Z maiores podem traduzir até 101 idiomas sem o idioma intermediário do inglês, de acordo com a Microsoft. Isso resulta em 10.000 caminhos de tradução.
A abordagem do MoE não é nova. O Google o pesquisa desde o verão de 2020 e revelou um gigante modelo de linguagem de IA construído usando o princípio MoE em dezembro de 2021. Antes disso, Meta compartilhou uma poderosa IA de tradução em novembro de 2021, na qual seções individuais na rede neural assumem o papel de especialista para diferentes idiomas. A tradução AI M4 do Google, o Switch Transformer de 1,6 trilhão de parâmetros do Google e o Wu Dao 2.0 de 1,75 trilhão de parâmetros da China também contam com arquiteturas MoE.
Mais sobre IA de fala:
- Chega de barreiras linguísticas: Meta quer realizar “o sonho da humanidade”
- Deepmind: Nova IA decifra, localiza e data textos antigos
- O modelo de IA do Google, LaMDA, pode se tornar o Assistente 2.0