Ranking de modelos de Combinado

Mira qué modelos de IA rinden mejor en Combinado, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Promedio de Puntuación de Combinado

5.6

Mejor modelo

Muse Spark 1.1 5.9

Motivos de fallo

Con motivo de fallo Llamada de herramienta no válida91 Con motivo de fallo Respuesta incorrecta69 Con motivo de fallo Sin respuesta32 Con motivo de fallo Error de API26 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Formato extra1 Con motivo de fallo No siguió las instrucciones1

216/216

Rango	Modelo	Empresa	Puntuación de Combinado	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	6.4	6.9	$0.467	1/2	135.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.467 Tiempo de respuesta (promedio) 135.7s
#86	DeepSeek V4 Pro none	DeepSeek	7.9	6.9	$0.096	1/2	71.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.096 Tiempo de respuesta (promedio) 71.6s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.524 Tiempo de respuesta (promedio) 8.37s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.9	6.9	$0.187	1/2	125.4s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.187 Tiempo de respuesta (promedio) 125.4s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.738 Tiempo de respuesta (promedio) 299.2s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.207 Tiempo de respuesta (promedio) 41.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.544 Tiempo de respuesta (promedio) 8.90s
#95	Gemini 3.5 Flash-Lite low	Google	6.3	6.7	$0.145	1/2	8.96s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.145 Tiempo de respuesta (promedio) 8.96s
#100	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.089 Tiempo de respuesta (promedio) 492.9s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.128 Tiempo de respuesta (promedio) 50.2s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.231 Tiempo de respuesta (promedio) 61.6s
#107	MiMo-V2.5 medium	Xiaomi	8.7	6.5	$0.082	1/2	78.0s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.082 Tiempo de respuesta (promedio) 78.0s
#108	Laguna XS 2.1 medium	Poolside	6.3	6.5	$0.068	1/2	218.1s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.068 Tiempo de respuesta (promedio) 218.1s
#109	Qwen3.5-27B none	Qwen	6.4	6.5	$0.090	1/2	39.4s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.090 Tiempo de respuesta (promedio) 39.4s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.073 Tiempo de respuesta (promedio) 64.8s

←

1 9 10 11 15

→

Ranking de Combinado

Filtrar modelos

Mejores modelos por Puntuación de Combinado

Puntuación de Combinado vs costo total

Mejores modelos por Tiempo de respuesta (promedio)