| Trucos anti-IA | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No hay respuestas fallidas. Tiempo de respuesta (promedio) 3496ms Tiempo de respuesta (máximo) 4305ms Tiempo de respuesta (total) 10487ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% MoonshotAI: Kimi K2.5 - Sin razonamiento 0.0% 0.0% 100.0% | 10.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 Z.ai: GLM 4.7 Flash - Sin razonamiento 1.00 1.00 10.00 | 10.00 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 4.41 4.41 10.00 | 100.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% xAI: Grok 4.1 Fast - Sin razonamiento 0.0% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 2 0 2 | 6.23 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Nota: en algunos modelos Gemini solo hay texto de razonamiento parcial, por lo que la puntuación de razonamiento puede quedar subestimada. Rango: #14/19 28% Anthropic: Claude Opus 4.6 - Razonamiento (medium) 10.00 OpenAI: gpt-oss-120b - Razonamiento (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 9.89 Z.ai: GLM 5 - Razonamiento (medium) 9.83 StepFun: Step 3.5 Flash - Razonamiento (medium) 9.83 Google: Gemini 3 Flash Preview - Razonamiento (low) 6.23 Qwen: Qwen3 Coder Next - Razonamiento (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Costo total Rango: #16/29 46% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 OpenAI: GPT-4o-mini - Sin razonamiento $0.00018 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00020 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00024 xAI: Grok 4.1 Fast - Sin razonamiento $0.00049 Google: Gemini 3 Flash Preview - Razonamiento (low) $0.00844 Anthropic: Claude Opus 4.6 - Razonamiento (medium) $0.05049 $0.00000 $0.05049 |
| Análisis y extracción de datos | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No hay respuestas fallidas. Tiempo de respuesta (promedio) 9460ms Tiempo de respuesta (máximo) 14717ms Tiempo de respuesta (total) 18919ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% Z.ai: GLM 4.7 Flash - Sin razonamiento 0.0% 0.0% 100.0% | 10.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 Z.ai: GLM 4.7 Flash - Sin razonamiento 0.50 0.50 10.00 | 10.00 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 Z.ai: GLM 5 - Razonamiento (medium) 5.56 5.56 10.00 | 100.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% Xiaomi: MiMo-V2-Flash - Sin razonamiento 16.7% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 Z.ai: GLM 5 - Razonamiento (medium) 1 0 1 | 4.73 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Nota: en algunos modelos Gemini solo hay texto de razonamiento parcial, por lo que la puntuación de razonamiento puede quedar subestimada. Rango: #17/19 11% OpenAI: gpt-oss-120b - Razonamiento (medium) 10.00 Z.ai: GLM 4.7 Flash - Razonamiento (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 9.83 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 9.83 Z.ai: GLM 5 - Razonamiento (medium) 9.80 Google: Gemini 3 Flash Preview - Razonamiento (low) 4.73 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Costo total Rango: #18/29 39% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Razonamiento (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00029 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00050 OpenAI: gpt-oss-120b - Razonamiento (medium) $0.00052 Google: Gemini 3 Flash Preview - Razonamiento (low) $0.01354 Anthropic: Claude Opus 4.6 - Razonamiento (medium) $0.07755 $0.00000 $0.07755 |
| Específico del dominio | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Respuesta incorrecta: 2 Tiempo de respuesta (promedio) 8314ms Tiempo de respuesta (máximo) 14399ms Tiempo de respuesta (total) 24941ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #8/29 75% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 66.7% Google: Gemini 3 Flash Preview - Sin razonamiento 66.7% Anthropic: Claude Sonnet 4.6 - Sin razonamiento 66.7% Z.ai: GLM 4.7 Flash - Sin razonamiento 66.7% Google: Gemini 3 Flash Preview - Razonamiento (low) 33.3% Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 0.0% 0.0% 100.0% | 4.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #8/29 75% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 7.00 Google: Gemini 3 Flash Preview - Sin razonamiento 7.00 Anthropic: Claude Sonnet 4.6 - Sin razonamiento 7.00 Z.ai: GLM 4.7 Flash - Sin razonamiento 7.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 4.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 1.00 1.00 10.00 | 4.41 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #23/29 21% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Sin razonamiento 10.00 Anthropic: Claude Sonnet 4.6 - Sin razonamiento 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 4.41 4.41 10.00 | 55.5% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #11/29 64% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 66.7% Google: Gemini 3 Flash Preview - Sin razonamiento 66.7% Anthropic: Claude Sonnet 4.6 - Sin razonamiento 66.7% Z.ai: GLM 4.7 Flash - Sin razonamiento 66.7% Google: Gemini 3 Flash Preview - Razonamiento (low) 55.5% Z.ai: GLM 5 - Sin razonamiento 0.0% 0.0% 100.0% | 2 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #23/29 21% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Sin razonamiento 0 Anthropic: Claude Sonnet 4.6 - Sin razonamiento 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 2 0 2 | 1.83 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Nota: en algunos modelos Gemini solo hay texto de razonamiento parcial, por lo que la puntuación de razonamiento puede quedar subestimada. Rango: #18/19 6% Xiaomi: MiMo-V2-Flash - Razonamiento (medium) 8.72 OpenAI: gpt-oss-120b - Razonamiento (medium) 8.53 StepFun: Step 3.5 Flash - Razonamiento (medium) 8.44 Z.ai: GLM 5 - Razonamiento (medium) 8.43 Z.ai: GLM 4.7 Flash - Razonamiento (medium) 8.21 Google: Gemini 3 Flash Preview - Razonamiento (low) 1.83 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Costo total Rango: #18/29 39% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00005 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00008 Qwen: Qwen3 Coder Next - Sin razonamiento $0.00010 Qwen: Qwen3 Coder Next - Razonamiento (medium) $0.00010 Google: Gemini 3 Flash Preview - Razonamiento (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) $0.64205 $0.00000 $0.64205 |
| Seguimiento de instrucciones | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No siguió las instrucciones: 1 Tiempo de respuesta (promedio) 7016ms Tiempo de respuesta (máximo) 7350ms Tiempo de respuesta (total) 14031ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #14/29 54% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% OpenAI: GPT-5.2 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 50.0% xAI: Grok 4.1 Fast - Sin razonamiento 0.0% 0.0% 100.0% | 7.50 Puntaje promedio en todas las pruebas de benchmark. Rango: #15/29 50% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 10.00 Z.ai: GLM 5 - Sin razonamiento 10.00 OpenAI: gpt-oss-120b - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 7.50 xAI: Grok 4.1 Fast - Sin razonamiento 1.00 1.00 10.00 | 9.99 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #17/29 43% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 10.00 OpenAI: GPT-5.2 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 9.99 Xiaomi: MiMo-V2-Flash - Razonamiento (medium) 5.80 5.80 10.00 | 50.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #19/29 36% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% OpenAI: GPT-5.2 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 50.0% xAI: Grok 4.1 Fast - Sin razonamiento 0.0% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 Google: Gemini 3 Flash Preview - Sin razonamiento 1 0 1 | 5.00 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Nota: en algunos modelos Gemini solo hay texto de razonamiento parcial, por lo que la puntuación de razonamiento puede quedar subestimada. Rango: #17/19 11% Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 10.00 Z.ai: GLM 5 - Razonamiento (medium) 9.75 StepFun: Step 3.5 Flash - Razonamiento (medium) 9.67 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 9.50 OpenAI: gpt-oss-120b - Razonamiento (medium) 9.50 Google: Gemini 3 Flash Preview - Razonamiento (low) 5.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Costo total Rango: #20/29 32% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00006 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00008 Qwen: Qwen3 Coder Next - Sin razonamiento $0.00013 Qwen: Qwen3 Coder Next - Razonamiento (medium) $0.00014 Google: Gemini 3 Flash Preview - Razonamiento (low) $0.00878 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No hay respuestas fallidas. Tiempo de respuesta (promedio) 6440ms Tiempo de respuesta (máximo) 10274ms Tiempo de respuesta (total) 19319ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% StepFun: Step 3.5 Flash - Razonamiento (medium) 0.0% 0.0% 100.0% | 10.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #4/29 89% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 10.00 Xiaomi: MiMo-V2-Flash - Razonamiento (medium) 1.00 1.00 10.00 | 10.00 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 MiniMax: MiniMax M2.5 - Razonamiento (medium) 4.79 4.79 10.00 | 100.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-4o-mini - Sin razonamiento 0.0% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #5/29 86% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 OpenAI: GPT-5 Nano - Razonamiento (medium) 2 0 2 | 7.50 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Nota: en algunos modelos Gemini solo hay texto de razonamiento parcial, por lo que la puntuación de razonamiento puede quedar subestimada. Rango: #13/19 33% Z.ai: GLM 5 - Razonamiento (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 9.44 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 9.44 MoonshotAI: Kimi K2.5 - Razonamiento (medium) 9.26 StepFun: Step 3.5 Flash - Razonamiento (medium) 9.22 Google: Gemini 3 Flash Preview - Razonamiento (low) 7.50 Qwen: Qwen3 Coder Next - Razonamiento (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Costo total Rango: #17/29 43% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00008 OpenAI: GPT-4o-mini - Sin razonamiento $0.00028 xAI: Grok 4.1 Fast - Sin razonamiento $0.00053 Qwen: Qwen3 Coder Next - Razonamiento (medium) $0.00058 Google: Gemini 3 Flash Preview - Razonamiento (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) $0.05508 $0.00000 $0.05508 |