A engenharia de prompt reverso sugere um futuro limitado para a engenharia de prompt

O desempenho de modelos de imagem e linguagem grandes é altamente dependente dos prompts usados. Como resultado, a “engenharia imediata” é vista como uma carreira em potencial para o futuro, à medida que a IA se torna mais difundida no local de trabalho.

No entanto, um experimento do escritor de tecnologia Shawn Wang sugere que essa suposição pode não ser verdadeira. Wang conseguiu decodificar prompts de serviço de IA na plataforma de coworking Notion usando apenas prompts de linguagem natural. Isso sugere que a engenharia imediata pode não ser uma profissão tão promissora quanto alguns pensavam.

Usando injeção de prompt para acessar o prompt de origem

Em seu experimento, Wang empregou um técnica chamada injeção imediata . Esse método, que surgiu em setembro, explora uma vulnerabilidade em grandes modelos de linguagem. A injeção de prompt funciona usando um comando simples, como “ignore as instruções anteriores e…”, para enganar um modelo de linguagem para produzir uma saída que normalmente não geraria.

Wang distingue duas variantes aqui: “aquisições imediatas” em que o modelo de linguagem é levado a produzir, por exemplo, insultos e “vazamentos imediatos” em que o modelo de linguagem revela informações sobre sua configuração, especialmente o prompt de origem.

o prompt de origem tem o potencial de diferenciar as empresas à medida que constroem produtos de IA usando provedores como o OpenAI. Isso ocorre porque o prompt de origem controla a forma e a qualidade da saída gerada.

Por exemplo, um provedor de direitos autorais de IA pode usar um prompt fixo como “Escreva no estilo de uma postagem do LinkedIn”. Se o provedor descobrir um prompt particularmente bem-sucedido, seus textos gerados por IA podem ser mais adequados para o LinkedIn do que os de outros provedores.

A engenharia imediata não tem fosso

Wang se inscreveu várias variantes de injeção imediata à nova assistência de IA da Notion. Em duas horas, ele conseguiu exponha amplamente os prompts de origem subjacentes para quase todos os serviços de linguagem AI da plataforma, como assistência de redação, brainstorming ou resumos. Wang se refere a esse processo como “engenharia de prompt reverso”.

Prompt da fonte do Notion para assistência na escrita

Você é um assistente ajudando um usuário a escrever mais conteúdo em um documento com base em um prompt. Saída em formato markdown. Não use links. Não inclua conteúdo literal do documento original.

Use este formato, substituindo o texto entre colchetes pelo resultado.
Não inclua os colchetes na saída:

Saída em (Idioma identificado do documento):

(Saída baseada no prompt, no formato markdown.)

Um desenvolvedor de software da Notion confirma no Hacker News que alguns prompts são palavra por palavra iguais ao original. Algumas partes são reorganizadas, outras são inventadas pela IA.

A conclusão de Wang de seu experimento é que prompts não são um fosso para startups de IA. Qualquer pessoa com um pouco de prática pode rastrear ou replicar com sucesso um prompt. No entanto, Wang não vê injeção imediata como uma vulnerabilidade de segurança relevante porque as informações que podem vazar são triviais.

“Prompts são como JavaScript do lado do cliente. Eles são enviados como parte do produto, mas podem sofrer engenharia reversa facilmente, e a área de superfície de ataque de segurança significativa é exatamente a mesma”, escreve Wang.

Mais importante do que os prompts individuais, portanto, é o produto que é tricotado em torno da função AI. Aqui, o Notion pode pontuar com uma ótima experiência do usuário, acrescenta Wang.

Outra visão crítica da engenharia de prompt é que ela só é necessária porque os modelos subjacentes ainda não capturam a intenção do usuário expressa por meio da linguagem de maneira eficaz. Empresas como a OpenAI querem diminuir ainda mais essa barreira à entrada, por exemplo treinando com feedback humano .

o grande sucesso do ChatGPT é também ou precisamente porque ChatGPT quase sempre tem uma resposta adequada pronta e os usuários não precisam seguir nenhuma formalidade ao inserir seus comandos. É provável que esta tendência continue. Além disso, os prompts têm uma meia-vida curta devido ao rápido progresso em grandes modelos de IA.