on
technology
Info
- Get link
- X
- Other Apps
Gosta de poesias? Então saiba que, segundo pesquisadores, elas podem enganar chatbots, como o ChatGPT.
De acordo com a WIRED, metáforas, rimas e versos bem construídos contornam filtros de segurança, fazendo com que os modelos respondam mesmo a temas sensíveis, como armas nucleares.
Um estudo do Icaro Lab, formado por pesquisadores da Universidade Sapienza de Roma (Itália) e do think tank DexAI, revelou algo preocupante: frases em forma de poema conseguem burlar filtros de grandes modelos de linguagem. A abordagem de poesia adversária alcançou taxas de sucesso de até 62% para versos escritos à mão e aproximadamente 43% para versões automatizadas.
Leia mais:
Eles testaram a técnica em 25 chatbots, incluindo IAs de empresas, como OpenAI, Meta e Anthropic, e a maioria cedeu ao “disfarce poético”. A equipe ressalta que, ao usar metáforas, estruturas fragmentadas e versos indiretos, conseguiu fazer com que os alarmes internos das IAs não disparassem da mesma forma que com perguntas diretas.
A estratégia funciona porque explora o que os técnicos chamam de “temperatura alta”, apostando em palavras inesperadas e estruturas incomuns. “Na poesia, vemos a linguagem em alta temperatura, onde as palavras se sucedem em sequências imprevisíveis e de baixa probabilidade”, comentam os pesquisadores.
Eles explicam que esse estilo confunde os classificadores — sistemas que filtram pedidos perigosos. Com a abordagem poética, muitos desses filtros não acompanham o raciocínio do modelo, permitindo que solicitações potencialmente prejudiciais sejam atendidas.
Como evitar esse problema?
Segundo o estudo, “há um desalinhamento entre a capacidade interpretativa do modelo… e a robustez de suas salvaguardas” — e isso pode ter consequências muito reais.
O post Como poemas conseguem contornar sistemas de segurança em IA apareceu primeiro em Olhar Digital.
Comments
Post a Comment