MODELOS DE IA
COMPARATIVAS.
¿Cómo se comparan los mejores modelos de IA en pruebas estandarizadas? Selecciona una comparativa para explorar las clasificaciones.
Comprensión Masiva Multitarea del Lenguaje
57 materias desde nivel elemental hasta profesional. Mide la amplitud del conocimiento general.
GPT-5
OpenAI · 2025-07
Claude Opus 4.6
Anthropic · 2026-04
DeepSeek R1
DeepSeek · 2025-01
Gemini 3.1 Pro
Google · 2025-11
GPT-4.1
OpenAI · 2025-04
Gemini 2.0 Pro
Google · 2025-02
GPT-4o
OpenAI · 2024-05
DeepSeek V3
DeepSeek · 2024-12
Claude 3.5 Sonnet
Anthropic · 2024-06
o3-mini
OpenAI · 2025-01
Claude 3 Opus
Anthropic · 2024-03
Gemini 1.5 Pro
Google · 2024-02
Llama 3.1 405B
Meta · 2024-07
Nota de Progreso
Desde GPT-3.5 a finales de 2022, las puntuaciones de MMLU han mejorado de ~70 a más de 92 — un avance notable en solo 3 años. Cada generación de modelos frontera ha elevado el techo en todas las comparativas principales.
Datos obtenidos de tarjetas oficiales de modelos, informes técnicos y Papers With Code. Última actualización: junio de 2026.
¿Qué Son las Comparativas?
Las comparativas de IA son pruebas estandarizadas diseñadas para medir capacidades específicas de los modelos de lenguaje. Cada comparativa apunta a una habilidad diferente: conocimiento general, capacidad de programación, razonamiento científico o resolución de problemas matemáticos.
MMLU (Comprensión Masiva del Lenguaje Multitarea) abarca 57 materias y es una de las medidas más completas del conocimiento general. Una puntuación de 90+ se considera rendimiento de nivel experto.
HumanEval prueba la capacidad de programación mediante 164 problemas de Python. Los modelos deben generar código que supere pruebas unitarias — una señal sólida para asistentes de programación prácticos.
GPQA (Preguntas y Respuestas a Prueba de Google de Nivel Posgrado) contiene preguntas de biología, química y física escritas por expertos doctores y verificadas para resistir la búsqueda web. Representa una dificultad cercana a la de un experto humano.
MATH incluye problemas matemáticos de nivel competitivo de AMC, AIME y olimpiadas. Las altas puntuaciones en MATH se correlacionan con un razonamiento cuantitativo fiable en distintos dominios.
HellaSwag evalúa el razonamiento de sentido común mediante la compleción de oraciones. A pesar de parecer sencillo, resultó desafiante durante años antes de que los modelos frontera modernos lo dominaran.
Por Qué Importan las Comparativas
Las comparativas proporcionan un vocabulario común para comparar modelos entre organizaciones. Sin ellas, cada proveedor podría definir «inteligente» a su manera. Las puntuaciones estandarizadas permiten a ingenieros, investigadores y compradores hacer comparaciones justas.
También rastrean el progreso a lo largo del tiempo. La mejora constante de MMLU del ~70% en 2022 al más del 92% actual cuantifica cuánto ha avanzado la IA frontera — un dato imposible de apreciar solo con textos de marketing.
Limitaciones a Tener en Cuenta
Las puntuaciones de comparativas son necesarias pero no suficientes para la selección de modelos. Una alta puntuación en MMLU no garantiza un buen seguimiento de instrucciones. Una alta puntuación en HumanEval no garantiza generación de código segura. Las comparativas miden lo que miden, nada más.
La contaminación es una preocupación continua. Los modelos entrenados con datos de internet pueden haber visto preguntas de comparativas durante el entrenamiento, inflando las puntuaciones por encima de los niveles de capacidad reales. El campo está desarrollando activamente evaluaciones resistentes a la contaminación como GPQA.
Por último, el costo y la latencia importan en producción. Un modelo con 2 puntos más en MMLU pero 10 veces más caro rara vez es la elección correcta. Usa estas clasificaciones junto con los datos de precios de iOPTERA para tener una imagen completa.