| Trucos anti-IA | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No hay respuestas fallidas. Tiempo de respuesta (promedio) 4687ms Tiempo de respuesta (máximo) 6680ms Tiempo de respuesta (total) 14061ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 100.0% MoonshotAI: Kimi K2.5 - Sin razonamiento 0.0% 0.0% 100.0% | 10.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 10.00 Z.ai: GLM 4.7 Flash - Sin razonamiento 1.00 1.00 10.00 | 10.00 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 10.00 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 4.41 4.41 10.00 | 100.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 100.0% xAI: Grok 4.1 Fast - Sin razonamiento 0.0% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 0 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 2 0 2 | 6.00 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Rango: #15/19 22% Anthropic: Claude Opus 4.6 - Razonamiento (medium) 10.00 OpenAI: gpt-oss-120b - Razonamiento (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 9.89 Z.ai: GLM 5 - Razonamiento (medium) 9.83 StepFun: Step 3.5 Flash - Razonamiento (medium) 9.83 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 6.00 Qwen: Qwen3 Coder Next - Razonamiento (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 Costo total Rango: #24/29 18% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 OpenAI: GPT-4o-mini - Sin razonamiento $0.00018 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00020 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00024 xAI: Grok 4.1 Fast - Sin razonamiento $0.00049 OpenAI: GPT-5.3-Codex - Razonamiento (medium) $0.02371 Anthropic: Claude Opus 4.6 - Razonamiento (medium) $0.05049 $0.00000 $0.05049 |
| Análisis y extracción de datos | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No hay respuestas fallidas. Tiempo de respuesta (promedio) 3180ms Tiempo de respuesta (máximo) 3585ms Tiempo de respuesta (total) 6360ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 100.0% Z.ai: GLM 4.7 Flash - Sin razonamiento 0.0% 0.0% 100.0% | 10.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 10.00 Z.ai: GLM 4.7 Flash - Sin razonamiento 0.50 0.50 10.00 | 10.00 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 10.00 Z.ai: GLM 5 - Razonamiento (medium) 5.56 5.56 10.00 | 100.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 100.0% Xiaomi: MiMo-V2-Flash - Sin razonamiento 16.7% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 0 Z.ai: GLM 5 - Razonamiento (medium) 1 0 1 | 1.25 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Rango: #19/19 0% OpenAI: gpt-oss-120b - Razonamiento (medium) 10.00 Z.ai: GLM 4.7 Flash - Razonamiento (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 9.83 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 9.83 Z.ai: GLM 5 - Razonamiento (medium) 9.80 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 Costo total Rango: #23/29 21% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Razonamiento (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00029 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00050 OpenAI: gpt-oss-120b - Razonamiento (medium) $0.00052 OpenAI: GPT-5.3-Codex - Razonamiento (medium) $0.02600 Anthropic: Claude Opus 4.6 - Razonamiento (medium) $0.07755 $0.00000 $0.07755 |
| Específico del dominio | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Respuesta incorrecta: 2 Tiempo de respuesta (promedio) 64314ms Tiempo de respuesta (máximo) 100927ms Tiempo de respuesta (total) 192942ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #9/29 71% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 66.7% Google: Gemini 3 Flash Preview - Sin razonamiento 66.7% Anthropic: Claude Sonnet 4.6 - Sin razonamiento 66.7% Z.ai: GLM 4.7 Flash - Sin razonamiento 66.7% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 33.3% Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 0.0% 0.0% 100.0% | 4.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #9/29 71% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 7.00 Google: Gemini 3 Flash Preview - Sin razonamiento 7.00 Anthropic: Claude Sonnet 4.6 - Sin razonamiento 7.00 Z.ai: GLM 4.7 Flash - Sin razonamiento 7.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 4.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 1.00 1.00 10.00 | 7.21 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #15/29 50% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Sin razonamiento 10.00 Anthropic: Claude Sonnet 4.6 - Sin razonamiento 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 7.21 Google: Gemini 3 Flash Preview - Razonamiento (low) 4.41 4.41 10.00 | 55.6% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 66.7% Google: Gemini 3 Flash Preview - Sin razonamiento 66.7% Anthropic: Claude Sonnet 4.6 - Sin razonamiento 66.7% Z.ai: GLM 4.7 Flash - Sin razonamiento 66.7% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 55.6% Z.ai: GLM 5 - Sin razonamiento 0.0% 0.0% 100.0% | 1 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #15/29 50% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Sin razonamiento 0 Anthropic: Claude Sonnet 4.6 - Sin razonamiento 0 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1 Google: Gemini 3 Flash Preview - Razonamiento (low) 2 0 2 | 1.00 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Rango: #19/19 0% Xiaomi: MiMo-V2-Flash - Razonamiento (medium) 8.72 OpenAI: gpt-oss-120b - Razonamiento (medium) 8.53 StepFun: Step 3.5 Flash - Razonamiento (medium) 8.44 Z.ai: GLM 5 - Razonamiento (medium) 8.43 Z.ai: GLM 4.7 Flash - Razonamiento (medium) 8.21 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 Costo total Rango: #27/29 7% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00005 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00008 Qwen: Qwen3 Coder Next - Sin razonamiento $0.00010 Qwen: Qwen3 Coder Next - Razonamiento (medium) $0.00010 OpenAI: GPT-5.3-Codex - Razonamiento (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) $0.64205 $0.00000 $0.64205 |
| Seguimiento de instrucciones | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No siguió las instrucciones: 1 Tiempo de respuesta (promedio) 3037ms Tiempo de respuesta (máximo) 3436ms Tiempo de respuesta (total) 6074ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #15/29 50% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% OpenAI: GPT-5.2 - Razonamiento (medium) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 50.0% xAI: Grok 4.1 Fast - Sin razonamiento 0.0% 0.0% 100.0% | 9.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #14/29 54% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 10.00 Z.ai: GLM 5 - Sin razonamiento 10.00 OpenAI: gpt-oss-120b - Razonamiento (medium) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 9.00 xAI: Grok 4.1 Fast - Sin razonamiento 1.00 1.00 10.00 | 10.00 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #4/29 89% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 10.00 OpenAI: GPT-5.2 - Razonamiento (medium) 10.00 Xiaomi: MiMo-V2-Flash - Razonamiento (medium) 5.80 5.80 10.00 | 50.0% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #20/29 32% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% OpenAI: GPT-5.2 - Razonamiento (medium) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 50.0% xAI: Grok 4.1 Fast - Sin razonamiento 0.0% 0.0% 100.0% | 0 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #6/29 82% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Sin razonamiento 1 0 1 | 1.00 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Rango: #19/19 0% Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 10.00 Z.ai: GLM 5 - Razonamiento (medium) 9.75 StepFun: Step 3.5 Flash - Razonamiento (medium) 9.67 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 9.50 OpenAI: gpt-oss-120b - Razonamiento (medium) 9.50 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 Costo total Rango: #23/29 21% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00006 Xiaomi: MiMo-V2-Flash - Sin razonamiento $0.00008 Qwen: Qwen3 Coder Next - Sin razonamiento $0.00013 Qwen: Qwen3 Coder Next - Razonamiento (medium) $0.00014 OpenAI: GPT-5.3-Codex - Razonamiento (medium) $0.01216 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. No siguió las instrucciones: 1 Tiempo de respuesta (promedio) 4610ms Tiempo de respuesta (máximo) 7191ms Tiempo de respuesta (total) 13830ms Una prueba cuenta como totalmente superada solo si todos sus repeats pasan. Rango: #8/29 75% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 66.7% StepFun: Step 3.5 Flash - Razonamiento (medium) 0.0% 0.0% 100.0% | 7.00 Puntaje promedio en todas las pruebas de benchmark. Rango: #9/29 71% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 7.00 Xiaomi: MiMo-V2-Flash - Razonamiento (medium) 1.00 1.00 10.00 | 7.38 La consistencia refleja la estabilidad entre repeats (10 = muy consistente, incluso si es consistentemente incorrecto). Rango: #20/29 32% Google: Gemini 3 Flash Preview - Razonamiento (medium) 10.00 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 10.00 Google: Gemini 3 Pro Preview - Razonamiento (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 10.00 Google: Gemini 3 Flash Preview - Razonamiento (low) 10.00 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 7.38 MiniMax: MiniMax M2.5 - Razonamiento (medium) 4.79 4.79 10.00 | 77.8% Tasa de aciertos por intento = intentos correctos / intentos totales en todos los repeats. Rango: #8/29 75% Google: Gemini 3 Flash Preview - Razonamiento (medium) 100.0% Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 100.0% Google: Gemini 3 Pro Preview - Razonamiento (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 100.0% Google: Gemini 3 Flash Preview - Razonamiento (low) 100.0% OpenAI: GPT-5.3-Codex - Razonamiento (medium) 77.8% OpenAI: GPT-4o-mini - Sin razonamiento 0.0% 0.0% 100.0% | 1 Pruebas inestables tuvieron resultados mixtos entre repeats (al menos un acierto y un fallo). Rango: #18/29 39% Google: Gemini 3 Flash Preview - Razonamiento (medium) 0 Google: Gemini 3.1 Pro Preview - Razonamiento (medium) 0 Google: Gemini 3 Pro Preview - Razonamiento (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) 0 Google: Gemini 3 Flash Preview - Razonamiento (low) 0 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 1 OpenAI: GPT-5 Nano - Razonamiento (medium) 2 0 2 | 6.00 Mide la claridad, eficiencia y consistencia del razonamiento de forma independiente de la corrección final. Rango: #18/19 6% Z.ai: GLM 5 - Razonamiento (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Razonamiento (medium) 9.44 Anthropic: Claude Opus 4.6 - Razonamiento (medium) 9.44 MoonshotAI: Kimi K2.5 - Razonamiento (medium) 9.26 StepFun: Step 3.5 Flash - Razonamiento (medium) 9.22 OpenAI: GPT-5.3-Codex - Razonamiento (medium) 6.00 Qwen: Qwen3 Coder Next - Razonamiento (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 Costo total Rango: #25/29 14% StepFun: Step 3.5 Flash - Razonamiento (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sin razonamiento $0.00008 OpenAI: GPT-4o-mini - Sin razonamiento $0.00028 xAI: Grok 4.1 Fast - Sin razonamiento $0.00053 Qwen: Qwen3 Coder Next - Razonamiento (medium) $0.00058 OpenAI: GPT-5.3-Codex - Razonamiento (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - Razonamiento (medium) $0.05508 $0.00000 $0.05508 |