Ranking de modelos de Combinado

Mira qué modelos de IA rinden mejor en Combinado, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Promedio de Puntuación de Combinado

5.5

Mejor modelo

Muse Spark 1.1 5.9

Motivos de fallo

Con motivo de fallo Llamada de herramienta no válida91 Con motivo de fallo Respuesta incorrecta68 Con motivo de fallo Sin respuesta29 Con motivo de fallo Error de API26 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Formato extra1 Con motivo de fallo No siguió las instrucciones1

210/210

Rango	Modelo	Empresa	Puntuación de Combinado	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#116	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.066 Tiempo de respuesta (promedio) 25.6s
#117	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.249 Tiempo de respuesta (promedio) 13.7s
#118	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.017 Tiempo de respuesta (promedio) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.837 Tiempo de respuesta (promedio) 512.8s
#120	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 9.49s
#123	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 22.7s
#124	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.062 Tiempo de respuesta (promedio) 26.5s
#125	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.073 Tiempo de respuesta (promedio) 243.6s
#127	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.106 Tiempo de respuesta (promedio) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 21.1s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.349 Tiempo de respuesta (promedio) 7.02s
#133	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.385 Tiempo de respuesta (promedio) 10.4s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 554.9s
#138	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.184 Tiempo de respuesta (promedio) 77.8s

Ranking de Combinado

Filtrar modelos

Mejores modelos por Puntuación de Combinado

Puntuación de Combinado vs costo total

Mejores modelos por Tiempo de respuesta (promedio)