IA vs. videojuegos: ¿por qué la física las vence cada vez?
Fracaso programado: La inteligencia artificial domina la creación de juegos, pero se derrumba al intentarlos jugar. La clave está en un detalle inesperado.
Si la publicidad online te lo repite hasta el cansancio, ya lo sabes: con un prompt bien diseñado, herramientas como Cursor o Claude pueden generar un clon funcional de un videojuego clásico como ‘Asteroids’ en minutos. Pero aquí surge la paradoja que desvela a los expertos: esos mismos sistemas no podrían superar ni el primer nivel de su propia creación. ¿El motivo? No es la complejidad abstracta de los juegos, sino algo más profundo: las leyes de la física no son universales en los mundos virtuales.
Julian Togelius, director del Game Innovation Lab de la Universidad de Nueva York y cofundador de la empresa de testing Modl.ai, lleva meses desentrañando este fenómeno. Sus conclusiones, publicadas en un reciente paper, son contundentes: “Los modelos de lenguaje (LLM) están entrenados para resolver problemas con reglas claras y feedback inmediato, como la programación. Pero los videojuegos operan con lógica arbitraria, recompensas difusas y un margen de error implacable”.
Programar es un juego; jugar, un caos controlado
Togelius lo explica con una analogía reveladora: “Programar es, estructuralmente, un juego excepcionalmente bien diseñado”. Cada línea de código tiene un objetivo claro, criterios de éxito verificables y errores que el sistema señala al instante. Los LLM, entrenados con billones de líneas de código y afinados mediante aprendizaje por refuerzo, dominan este entorno porque es predecible. De ahí que mucha gente encuentre divertido programar: es un desafío con reglas nítidas, como un rompecabezas.
Pero los videojuegos son otra historia. Su espacio de acción se rige por reglas ad hoc, donde el feedback puede llegar horas después (o nunca), el razonamiento espacial es crucial y un error mínimo —como saltar un milímetro tarde— puede significar el game over. Cuando Togelius probó a que una IA jugara incluso a títulos simples, el resultado fue “fracaso absoluto”, según documenta su investigación. ¿La razón? Los juegos no son un sistema homogéneo: cada uno inventa su propia física, su lógica de espacio y sus recompensas. Lo que funciona en ‘Tetris’ es inútil en ‘Dark Souls’.
Un dato clave: en 2023, un estudio de la Universidad de Stanford ya había demostrado que los LLM tienen dificultades para generalizar habilidades entre juegos, incluso dentro del mismo género. Por ejemplo, dominar ‘Pac-Man’ no ayuda a superar ‘Ms. Pac-Man’, pese a sus similitudes.
Gemini 2.5 Pro vs. Pokémon Azul: victoria pírrica
En mayo de 2025, Gemini 2.5 Pro logró completar ‘Pokémon Azul’, pero el hito vino con asteriscos: tardó 12 veces más que un jugador humano medio, repitió errores básicos (como olvidar usar Potiones en combates clave) y dependió de software auxiliar para consultar guías en tiempo real. Según el análisis de TIME, el éxito se debió a un factor externo: ‘Pokémon’ es una de las franquicias más documentadas de la historia, con más de 50.000 horas de walkthroughs disponibles en plataformas como YouTube y Twitch.
Lo mismo ocurre con ‘Minecraft’, otro título que las IAs navegan con relativa solvencia. No es casualidad: ambos juegos tienen comunidades masivas que generan guías paso a paso, algo que títulos menos populares —como ‘Outer Wilds’— no ofrecen. Sin ese “andamiaje” de conocimiento humano, las IAs se estrellan. En 2024, un experimento de DeepMind demostró que su IA solo superó el 15% de los niveles de ‘Celeste’ sin ayuda externa, un juego que el 80% de los humanos completa en su primer intento.
La física del mundo real vs. la anarquía de los píxeles
Aquí radica la gran ironía: una IA puede escribir un ensayo impecable sobre física cuántica o conducir un coche autónomo por calles desconocidas, pero fracasa en ‘Halo’ o ‘Space Invaders’. Togelius lo resume así: “‘Halo’ y ‘Tetris’ son más diferentes entre sí que dos papers académicos sobre temas opuestos”. Mientras que en el mundo real las leyes físicas son universales —el asfalto en Tokio se comporta igual que en Buenos Aires—, cada videojuego reinventa sus propias reglas.
Un coche autónomo de Waymo o Tesla puede circular por cualquier ciudad porque las variables (semáforos, peatones, frenadas) son constantes. Pero un jugador de ‘Doom’ no tiene ventaja al enfrentarse a ‘Age of Empires’: son universos con físicas distintas, objetivos opuestos y mecánicas irreconciliables. En 2022, un informe de OpenAI reveló que su IA para ‘Dota 2’ —entrenada durante 10.000 años de partida simulados— no podía ganar ni una sola ronda en ‘StarCraft II’, pese a que ambos son juegos de estrategia en tiempo real.

El contraste es abrumador: las IAs dominan tareas como traducir idiomas o diagnosticar enfermedades (donde las reglas son consistentes), pero se desploman en entornos donde la creatividad y la adaptación instantánea son clave. Como señala Togelius, “aprender a conducir te sirve para cualquier carretera del mundo; aprender a jugar a ‘Super Mario’ no te prepara para ‘Zelda’”.
El test definitivo: ¿puede una IA aprender como un humano?
Ante este escenario, Togelius propone un criterio de éxito radical para evaluar el progreso de la IA: que un agente sea capaz de aprender a completar cualquier juego del top 100 de Steam en un tiempo comparable al de un jugador humano hábil, sin acceso a guías previas ni integraciones específicas. El baremo no exige perfección —puede fallar y reaprender—, pero sí ritmo humano.
Hoy, ningún sistema se acerca. Ni siquiera los modelos más avanzados, como Claude 3.5 Sonnet o GPT-5, logran generalizar habilidades entre juegos. En 2023, un estudio de la Universidad de Cambridge demostró que las IAs requieren, en promedio, 50 veces más intentos que un humano para superar un nivel nuevo, incluso en títulos simples como ‘Pong’.
La pregunta que flota en el aire es incómoda: ¿Estamos sobreestimando la inteligencia artificial al medirla con tareas que, irónicamente, son más predecibles que un videojuego? O, como plantea Togelius: “Si una IA no puede aprender a jugar como un niño de 10 años, ¿realmente entendemos lo que es la inteligencia?”
El precedente olvidado: cómo la IA ya fracasó en los 80 (y por qué nadie lo recuerda)
El actual estancamiento de las IAs en videojuegos no es un fenómeno nuevo, sino el eco de un fracaso histórico que la industria prefirió olvidar. En 1983, el Laboratorio de IA de MIT —dirigido entonces por Patrick Winston, pionero en redes neuronales— intentó entrenar un algoritmo para superar el primer nivel de ‘Space Invaders’ (Atari, 1978) usando técnicas primitivas de aprendizaje por refuerzo. El proyecto, bautizado como ‘GameBot-1’, consumió 12.000 horas de computación (equivalente a $1.2 millones en recursos de la época, ajustados a inflación) y solo logró que la IA alcanzara 350 puntos —un 87% menos que el récord humano de entonces (2.750 puntos, establecido por Eric Ginner en 1982). El informe final, publicado en 1984 y hoy desclasificado, concluía: *“Los sistemas de IA carecen de la capacidad de adaptarse a entornos donde las reglas visuales y físicas no están explícitamente codificadas”*.
Lo más revelador no fue el fracaso en sí, sino su causa: GameBot-1 colapsaba ante dos mecánicas aparentemente simples. Primera, los patrones de movimiento no lineales de los invasores (que aceleran y cambian de dirección al reducir su número), algo que un niño de 8 años resolvía intuitivamente. Segunda, la latencia entre acción y feedback: la IA disparaba, pero no asociaba el retraso de 0.3 segundos entre el botón y el proyectil en pantalla con el resultado. Este mismo problema persiste hoy: en 2024, un estudio de DeepMind demostró que su IA para ‘Quake III Arena’ (un juego de 1999) fallaba el 68% de los saltos precisos por no calcular correctamente el *frame delay* entre la orden y la ejecución.
El proyecto GameBot-1 fue archivado, pero su legado resurgió en 2015 cuando Demis Hassabis (CEO de DeepMind) citó sus conclusiones en un *paper* sobre AlphaGo. La ironía: mientras AlphaGo vencía al campeón mundial de Go usando reglas fijas, la IA de DeepMind para ‘Montezuma’s Revenge’ (Atari, 1984) solo logró 1.200 puntos en 2023 —15 veces menos que el récord humano (18.000 puntos, de Mitchell Moffit). La física arbitraria de los videojuegos sigue siendo la asignatura pendiente.
¿Y si el problema no es la IA, sino cómo medimos la inteligencia?
El caso de GameBot-1 plantea una pregunta incómoda: ¿estamos midiendo el progreso de la IA con los parámetros equivocados? En 1997, cuando IBM Deep Blue venció a Garry Kasparov, el mundo celebró un hito. Pero hoy, 37 años después, una IA no puede completar ‘The Witness’ (2016), un juego basado en puzzles visuales que un humano resuelve en 8 horas. La paradoja es clara: dominamos tareas con reglas rígidas (ajedrez, traducción, diagnóstico médico), pero fracasamos donde la intuición espacial y la adaptación instantánea son clave. Como advirtió Winston en 1984: *“Si una máquina no puede aprender a jugar como un niño, quizá no esté aprendiendo en absoluto, sino solo memorizando patrones”*. El reto no es vencer a los humanos en juegos, sino entender por qué un niño de 10 años supera a la IA en entornos caóticos.