Andreas Braun, CTO da Microsoft Alemanha, anunciou a introdução do GPT-4 para a próxima semana. Os modelos serão multimodais.
No evento “AI in Focus – Digital Kickoff”, a Microsoft Alemanha apresentou aplicações de negócios de grandes modelos de linguagem e falou sobre sua cooperação com a OpenAI e as novas ofertas do Azure resultantes dela.
Como relata Silke Hahn para a Heise, Braun anunciou uma revelação do GPT-4 na próxima semana: “Na próxima semana apresentaremos o GPT-4, lá temos modelos multimodais que oferecem possibilidades completamente diferentes – por exemplo, vídeos”, disse Braun.
O GPT-4 pode gerar vídeo?
Há dois aspectos intrigantes nessa afirmação: primeiro, Braun refere-se ao GPT-4 no plural, o que pode significar que ele consiste em vários modelos conectados em rede. Já no início de 2020 havia rumores de que o OpenAI treinaria um enorme modelo de IA multimodal mesclando vários projetos.
Em segundo lugar, Braun fala explicitamente sobre “vídeos”. No entanto, não se deve concluir que o GPT-4 é um gerador de vídeo em grande escala. A tecnologia existe mas ainda é muito experimental e computacionalmente intensivo.
Braun também pode relacionar a multimodalidade de vídeo à entrada. Ou seja, o GPT-4 pode processar prompts de vídeo ou imagem textualmente. É possível, por exemplo, que o GPT-4 seja capaz de descrever o conteúdo de uma imagem, vídeo ou áudio e então usar essa descrição no contexto para outras tarefas textuais.
cabe isso A janela de contexto do GPT-4 é considerada quatro vezes maior que a do ChatGPT e essa OpenAI treinou um poderoso modelo de reconhecimento de fala com Whisper que pode converter automaticamente o áudio de vídeos em texto e, assim, tornar o conteúdo de vídeo falado utilizável para treinamento de IA.
Microsoft Germany não comenta a declaração de Braun
Um porta-voz da Microsoft Germany se recusou a comentar a declaração GPT-4 de Braun. Ele, no entanto, apontou para um evento de 16 de março intitulado “O futuro do trabalho com IA,” onde o CEO da Microsoft, Satya Nadella, planeja falar sobre o uso de ferramentas de IA para produtividade.
Esse seria um cenário adequado para o lançamento do GPT-4 – com a ressalva de que o GPT-4 ainda é um produto OpenAI. Mas o colaboração de bilhões de dólares confunde as linhas entre as duas empresas, e a Microsoft já havia garantido direitos exclusivos para o modelo GPT-3.
O CEO da OpenAI, Sam Altman, disse no outono de 2021 que o GPT-4 será definitivamente um modelo baseado em texto sem multimodalidade, mas que ele espera que os modelos multimodais ultrapassem os modelos de texto puro na geração de texto no futuro.
Esses planos podem ter mudado e o então planejado GPT-4 tornou-se GPT-3.5 de modo que o GPT-4 a ser apresentado agora já oferece multimodalidade.
Altman anunciou em meados de janeiro que O GPT-4 não seria liberado até que fosse seguro e responsável para fazê-lo, e diminuiu as expectativas para as capacidades do modelo um pouco mais tarde . Os rumores nas redes sociais sobre o tamanho gigantesco da modelo eram “ridículos” e inventados do nada, disse Altman.