Sumário
O novo sistema de tradução da Meta pode traduzir 200 idiomas diferentes. Espera-se também que o tradutor automático universal supere obstáculos no futuro do Metaverso.
A tradução automática ficou muito melhor recentemente graças aos avanços no processamento de máquina de linguagem natural. Empresas como a DeepL estão competindo com tradutores humanos com traduções automáticas de alta qualidade.
Gigantes da tecnologia como Google e Meta também estão desenvolvendo seus próprios sistemas de IA para tradução, principalmente para tornar o conteúdo mais acessível em suas plataformas como YouTube, Facebook e Instagram.
Mas os sistemas treinados para tradução de IA precisam de dados – e isso é escasso para grande parte do conteúdo falado do mundo. Os pesquisadores distinguem entre as chamadas línguas de alto e baixo recurso – aquelas para as quais já existem muitas traduções na Internet, como o inglês, e aquelas para as quais quase não há traduções.
Meta “No Language Left Behind” busca o tradutor universal
O CEO da Meta, Mark Zuckerberg, que deseja conectar o maior número possível de pessoas – atualmente ainda no Facebook e no Instagram, futuramente no Metaverso – vê, portanto, o desenvolvimento de um “Tradutor Universal de Fala” como uma tarefa importante para sua empresa.
Na verdade, a Meta pesquisa a tradução automática há anos. Em 2018, por exemplo, obteve grande sucesso com sistemas de IA treinados sem supervisão e retradução. Em 2020, a Meta apresentou o M2M-100, um sistema que pode traduzir 100 idiomas. Em 2021, um sistema de IA baseado nele se tornou o primeiro modelo de IA multilíngue a atingir a pontuação mais alta no benchmark de tradução WMT2021.
Esses modelos de IA treinados em vários idiomas são considerados o futuro da tradução automática: ao contrário dos sistemas mais antigos, eles são treinados com dezenas ou centenas de idiomas por vez e depois transferem o conhecimento adquirido com o treinamento em idiomas de alto recurso para idiomas de baixo recurso .
Impulsionada pelo sucesso de seus modelos multilíngues, Meta lançou o “No Language Left Behind” projeto em fevereiro de 2022 para permitir traduções universais em tempo real, inclusive para idiomas raros.
Zuckerberg chamou essa capacidade multilíngue de “superpotência com a qual as pessoas sempre sonharam”. Esse tradutor poderia remover as barreiras linguísticas e dar a bilhões de pessoas acesso a informações em seu idioma preferido, de acordo com os pesquisadores de IA da Meta.
Meta quebra a barreira dos 200 idiomas
Agora a Meta está apresentando o NLLB-200, um modelo de IA multilíngue projetado para traduzir 200 idiomas com alta qualidade. Para garantir a qualidade da tradução, a equipe também criou um conjunto de dados de avaliação de 200 idiomas (FLORES-200) e testou o NLLB-200 com ele.
Comparado a outros modelos multilíngues, o NLLB-200 superou o estado da arte atual em uma média de 44 por cento. Em alguns idiomas africanos e indianos, o sistema Meta superou os sistemas mais antigos em até 70%.
Os tradutores atuais suportam menos de 25 idiomas africanos, muitos dos quais são de baixa qualidade. O novo modelo de IA da Meta, por outro lado, suporta 55 idiomas africanos e espera-se que forneça resultados de alta qualidade.
Isso é possível graças aos avanços na coleta de recursos de treinamento, um modelo de IA maior e uma melhor avaliação e otimização do modelo com o FLORES-200. Graças a uma nova versão do Kit de ferramentas LASER para transferência zero-shot em lingüística computacional baseada em um modelo Transformer, o Meta foi capaz de escalar a cobertura de linguagem do LASER3, gerar grandes conjuntos de pares de sentenças mesmo para idiomas com poucos recursos e filtrar melhor graças ao modelo LID-200 e um conjunto de dados de idioma tóxico.
A Meta também trabalha com especialistas humanos tanto na coleta de dados de treinamento quanto na avaliação da qualidade da tradução, especialmente para idiomas com poucos recursos.
O próprio modelo NLLB-200 é baseado em uma arquitetura mista de especialistas, onde áreas específicas da rede neural processam linguagens específicas. Isso evita que o sistema fique sobrecarregado com tantos dados de idioma, de acordo com a Meta. A inteligência artificial também foi treinada primeiro com pares de idiomas de alto recurso e depois de baixo recurso.
O NLLB-200 tem 54 bilhões de parâmetros e foi treinado no novo supercomputador AI da Meta, o Pesquisa SuperCluster (RSC) .
O NLLB-200 da Meta é de código aberto
As técnicas e insights desenvolvidos para o NLLB-200 agora estão sendo usados para otimizar e melhorar as traduções no Facebook e no Instagram. Segundo a Meta, já são mais de 25 bilhões de traduções por dia somadas nas duas plataformas.
A disponibilidade de traduções sem erros em mais idiomas também pode facilitar a identificação de conteúdo perigoso e desinformação, proteger a integridade das eleições e conter a disseminação de abuso sexual e tráfico humano online, escreve a empresa.
Além disso, a tradução AI também estará disponível para os editores da Wikipédia. A Meta também fornecerá os modelos NLLB-200 totalmente treinados, o conjunto de dados de avaliação FLORES-200, o código de treinamento para o modelo e o código para replicar o conjunto de dados de treinamento sob uma licença de código aberto.