El ranking de abril de 2026 de TrackingAI muestra a Grok-4.20 y GPT-5.4 Pro empatados en el primer lugar con 145 puntos en la prueba de Mensa Noruega. Sin ermbago, la diferencia entre el primero y el tercero es de apenas cuatro puntos, y los expertos advierten que la competencia ahora se juega en especialización, multimodalidad y posicionamiento de mercado.
Hace un año, un modelo de IA que superara los 135 puntos en una prueba de razonamiento de Mensa era considerado excepcional. Hoy, varios modelos superan esa cifra con holgura, y los dos líderes del ranking de abril de 2026 de TrackingAI alcanzaron los 145 puntos.
La brecha entre los modelos líderes se está cerrando a un ritmo que cambia las reglas del juego.
El ranking
En la medición de abril de 2026, Grok-4.20 Expert Mode y OpenAI GPT-5.4 Pro (Vision) quedaron empatados en el primer lugar con 145 puntos en la prueba de coeficiente intelectual de Mensa Noruega. La prueba consiste en 35 ejercicios visuales de reconocimiento de patrones y razonamiento abstracto, y los modelos con capacidad de visión reciben las imágenes originales directamente, mientras que los que no tienen esa función reciben descripciones textuales de las mismas.
Muy cerca aparece Gemini 3.1 Pro Preview con 141 puntos, seguido por OpenAI GPT-5.4 Thinking (Vision) con 139 y OpenAI GPT-5.3 con 136. Más abajo figuran Qwen 3.5 y Claude-4.6 Opus, ambos con 130 puntos. DeepSeek R1 alcanzó 112, mientras que Mistral Medium 3.1 quedó atrás con 96.

Gráfica que muestra el liderazgo de las IA. Fuente larepublica.co
Lo que realmente mide el test
Para Víctor Solano, experto en inteligencia artificial consultado por La República, un CI de 145 en Mensa mide razonamiento abstracto y reconocimiento de patrones visuales bajo presión de tiempo, pero deja por fuera dimensiones fundamentales como la creatividad, el sentido común, la empatía y la comprensión del contexto. Los modelos resuelven problemas rápido, no necesariamente bien en todos los escenarios.
El test también tiene limitaciones técnicas específicas. Por ejemplo, no evalúa memoria de largo plazo, ejecución de tareas complejas, conocimiento profundo de disciplinas específicas ni comprensión del sarcasmo o contextos ambiguos. Es decir, mide bien una parte del razonamiento, no la inteligencia en su sentido amplio.
Esto es relevante porque los rankings de este tipo tienen un impacto directo sobre la percepción del usuario y sobre las decisiones de adopción. Aparecer primero en un benchmark se ha convertido en una herramienta de marketing poderosa para empresas como OpenAI, Google, xAI o Anthropic, aunque la diferencia técnica real entre los modelos líderes sea estadísticamente marginal.
Una de las conclusiones más claras del ranking es que los modelos con capacidad de visión tienen una ventaja concreta en pruebas que incluyen imágenes. No es casualidad que los dos modelos líderes, Grok-4.20 y GPT-5.4 Pro, tengan capacidades visuales avanzadas. La multimodalidad, es decir, la capacidad de procesar simultáneamente texto, imágenes, audio y video, está redefiniendo qué significa ser un modelo competitivo.
Conclusión
El ranking de TrackingAI de abril de 2026 confirma que ya no se trata de quién da el salto más grande, sino de quién mantiene la ventaja en un campo donde todos los líderes están casi empatados. En ese escenario, la especialización, la multimodalidad y la capacidad de comunicar valor al usuario final se vuelven tan importantes como el puntaje en un benchmark.
