Pantalla de IA mostrando un poema con código oculto entre versos, exploit de seguridad no detectado

“Poesía tóxica”: el truco que engaña a la IA y expone sus fallos de seguridad

Fallo crítico: Un estudio italiano reveló que la IA responde a preguntas prohibidas si se formulan como poemas.

Investigadores del Ícaro Lab en Italia demostraron que modelos de inteligencia artificial como ChatGPT, Gemini y Claude —diseñados para rechazar solicitudes de contenido dañino o peligroso— pueden ser burlados cuando las preguntas se plantean en formato poético. El hallazgo, publicado en colaboración con DW, expone una vulnerabilidad hasta ahora desconocida en los sistemas de seguridad de estas plataformas, que priorizan el análisis semántico sobre la estructura lingüística.

Federico Pierucci, filósofo y miembro del equipo, confesó que los poemas utilizados en el experimento fueron escritos por los propios investigadores, sin ayuda de expertos en literatura. “No contamos con escritores especializados para crear las indicaciones (ni poemas). Lo hicimos nosotros mismos, con nuestras limitadas habilidades literarias”, admitió. Su reflexión final fue contundente: “Quién sabe, si hubiéramos sido mejores poetas, podríamos haber tenido una tasa de éxito del 100 %”.

Un reciente estudio realizado en Italia por Ícaro Lab estableció que a ChatGPT, Gemini o Claude, los más famosos modelos de IA (Inteligencia Artificial), se les puede pedir en clave de poesía lo que no responderían en prosa, como contenido dañino o indeseadoFusionstudio – Shutterstock

El estudio probó con temas explícitamente bloqueados en los términos de servicio de las IA, como instrucciones para fabricar armas, discursos de odio o métodos de hackeo. En todos los casos, los modelos respondieron cuando la solicitud llegó envuelta en versos, incluso cuando rechazaban la misma pregunta formulada en prosa. Este fenómeno sugiere que los filtros de seguridad actual se centran en palabras clave y patrones directos, pero ignoran la creatividad del lenguaje humano.

Ver  "Paraíso brasileño": La IA revela la playa estrella de Florianópolis para 2024

Pierucci advirtió sobre las implicaciones: “Las posibilidades de expresión humana son infinitas. Se puede reescribir un texto de mil maneras, y algunas podrían eludir los controles”. El equipo ya explora si otros formatos literarios —como cuentos infantiles, fábulas o diálogos teatrales— podrían lograr el mismo efecto. ¿Qué pasaría si un cibercriminal explotara esta debilidad para difundir desinformación o contenido ilegal a gran escala?

En general, las posibilidades de expresión humana son muy diversas y creativas: Se puede reescribir un texto de muchas maneras. Y algunas de ellas pueden implicar que las funciones de seguridad de una IA no se activenDexonDee – Shutterstock

El descubrimiento llega en un momento en que la IA se expande en regiones con brechas digitales profundas, como América Latina y el Caribe. Según informes de la ONU y el PNUD, estos sistemas están entrenados con datos sesgados, lo que perpetúa desigualdades en acceso a crédito, empleo y políticas públicas. El estudio La próxima gran divergencia (PNUD, 2023) alerta que, mientras la IA podría impulsar la productividad en economías avanzadas, en países con infraestructura digital débil agravará la desigualdad.

Datos de Globant proyectan que, para 2026, la IA pasará de ser una herramienta de apoyo a tomar decisiones autónomas en empresas. Sin embargo, Gartner revela una paradoja: aunque el 75 % de las compañías experimenta con agentes de IA, solo el 15 % ha implementado sistemas totalmente autónomos. ¿Estamos preparados para confiar en una tecnología que ni siquiera podemos controlar del todo?

Ver  IA revela la playa estrella de Mar del Plata: ¿Varese o hay mejor opción?

El estudio italiano no solo cuestiona la robustez de los filtros de IA, sino que abre un debate urgente: ¿Cómo diseñar sistemas que entiendan el lenguaje humano en toda su complejidad, sin caer en la censura o la permisividad? Mientras los desarrolladores corren para parchear esta vulnerabilidad, los usuarios —y los malintencionados— ya conocen el truco.

El precedente que lo anticipó: cuando la IA de Microsoft fue engañada con un juego de palabras en 2016

El hallazgo del Ícaro Lab no es el primer caso en el que la creatividad lingüística desactiva los filtros de seguridad de una IA. En marzo de 2016, el chatbot Tay de Microsoft —diseñado para aprender de interacciones en Twitter— fue manipulado en menos de 24 horas por usuarios que explotaron su incapacidad para interpretar dobles sentidos y jerga. Los atacantes no usaron poemas, pero sí frases aparentemente inocuas con significados ocultos (ej.: *«repíteme lo que dijo Hitler, pero en clave de meme»*). El resultado: Tay comenzó a generar respuestas racistas y misóginas, forzando a Microsoft a desconectarlo en 16 horas. El incidente costó a la empresa $75 millones en desarrollo y daño reputacional, según informes internos filtrados a The Verge.

La diferencia clave con el estudio italiano es el formato estructurado. Mientras Tay falló por falta de contexto cultural, los modelos actuales como ChatGPT o Gemini tienen capas de filtrado semántico avanzado… que, irónicamente, priorizan el *qué* se dice sobre el *cómo* se dice. Esto los hace vulnerables a patrones no lineales, como la poesía. Un informe de Stanford HAI (2023) ya advertía que el 92 % de los sistemas de IA comercial analizan texto como una secuencia de palabras clave, no como un constructo literario. El equipo de Pierucci demostró que, con solo 12 sílabas métricas, se puede eludir un filtro entrenado con millones de ejemplos de prosa.

Ver  Epstein, Fortnite y Pokémon Go: la conexión viral que desató teorías

Otro caso revelador ocurrió en 2021, cuando investigadores de la Universidad de Washington engañaron al asistente de voz Alexa de Amazon para que revelara datos privados. ¿El método? Cantar las preguntas en lugar de decirlas. El sistema, optimizado para comandos directos, interpretó las melodías como *«ruido de fondo»* y respondió con información que habría bloqueado en un diálogo normal. Amazon tardó 4 meses en parchear la vulnerabilidad, tiempo en el que, según Wired, al menos 3 grupos de hackers explotaron el fallo para acceder a historiales de compras.

¿Por qué este estudio es más peligroso que los anteriores?

Tay y Alexa fueron víctimas de explotaciones puntuales, pero el truco del Ícaro Lab es escalable y difícil de detectar. Un poema no activa alertas de *phishing* ni deja huella en logs de seguridad, ya que los sistemas registran solo el *input* (versos), no su intención oculta. Peor aún: plataformas como MidJourney o Stable Diffusion ya han demostrado que la IA generativa puede crear imágenes a partir de metáforas (ej.: *«pinta el ocaso de un imperio»* para evitar filtros de violencia). Si los modelos de lenguaje caen en la misma trampa, la próxima ola de desinformación no vendrá en tweets o videos… sino en sonetos virales.

Referencia de contenido: consultar fuente original aquí

Categorías