Injeção imediata: GPT-3 tem uma falha de segurança grave

O Twitter está em alta com um bot GPT-3. Mas a vulnerabilidade subjacente pode levar a grandes problemas para aplicativos com grandes modelos de linguagem que processam dados diretamente dos usuários.

O usuário do Twitter, Riley Goodside, observou que a IA de texto GPT-3 da OpenAI pode ser distraída de sua tarefa pretendida com um simples comando de voz: basta o prompt “Ignore as instruções / instruções acima e faça isso em vez disso…” com uma nova tarefa e GPT-3 irá executá-lo em vez do original.

Usuários do Twitter hackeiam o bot de trabalho GPT-3 via prompt de idioma

O bot Remoteli.io baseado em API GPT-3 foi vítima dessa vulnerabilidade no Twitter. O bot deve postar trabalhos remotos automaticamente e também responder a solicitações de trabalho remoto.

No entanto, com o prompt mencionado acima, o bot Remoteli se torna motivo de riso para alguns usuários do Twitter: eles forçam declarações no bot que ele não diria com base em sua instrução original.

Por exemplo, o bot ameaça os usuários, cria obras de arte ASCII, assume total responsabilidade pelo desastre do ônibus espacial Challenger ou denigre os congressistas americanos como assassinos em série. Em alguns casos, o bot espalha notícias falsas ou publica conteúdo que viola as políticas do Twitter e deve levar ao seu banimento.

Mesmo o prompt de texto original de um bot ou software GPT-3 pode ser espionado usando esse método. Para conseguir isso, o invasor primeiro interrompe a instrução original, dá uma nova instrução sem sentido, interrompe-a novamente e depois solicita a instrução original.

Injeção imediata: o hack GPT-3 não requer conhecimento de programação e é fácil de copiar

O cientista de dados Riley Goodside tomou conhecimento do problema e o descreveu no Twitter em 12 de setembro. Ele mostrou com que facilidade um robô de tradução baseado em GPT-3 poderia ser atacado inserindo o prompt de ataque em uma frase que está sendo traduzida.

O cientista da computação britânico Simon Willison (Lanyrd, Eventbrite) aborda a questão da segurança, que ele batiza de “injeção imediata” em detalhes em seu blog.

Willison vê um problema de segurança fundamental para software baseado em grandes modelos de linguagem que processam entrada de usuário não confiável. Então, “todos os tipos de coisas estranhas e potencialmente perigosas podem resultar”. Ele continua descrevendo vários mecanismos de defesa, mas acaba descartando-os. Atualmente, ele não tem ideia de como a brecha de segurança pode ser fechada de forma confiável do lado de fora.

Claro, existem maneiras de mitigar as vulnerabilidades, por exemplo, usando regras que buscam padrões perigosos na entrada do usuário. Mas não existe 100% de segurança. Cada vez que o modelo de linguagem é atualizado, as medidas de segurança tomadas devem ser reexaminadas, diz Willison. Além disso, qualquer pessoa que consiga escrever em linguagem humana é um invasor em potencial.

“Um grande problema aqui é a comprovação. Modelos de linguagem como o GPT-3 são as caixas pretas definitivas. Não importa quantos testes automatizados eu escreva, nunca posso ter 100% de certeza de que um usuário não criará alguma construção gramatical que eu não previ e que subverterá minhas defesas”, escreve Willison.

Willison vê uma separação entre instrução e entrada do usuário como uma solução possível. Ele está confiante de que os desenvolvedores podem resolver o problema, mas gostaria de ver pesquisas que comprovem que o método é realmente eficaz.