Ranking de modelos de Combinado

Mira qué modelos de IA rinden mejor en Combinado, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Combinado

5.5

Mejor modelo

Gemini 3 PRO Preview 1.5

Motivos de fallo

Con motivo de fallo Llamada de herramienta no válida91 Con motivo de fallo Respuesta incorrecta68 Con motivo de fallo Sin respuesta29 Con motivo de fallo Error de API26 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Formato extra1 Con motivo de fallo No siguió las instrucciones1

210/210

Rango	Modelo	Empresa	Puntuación de Combinado	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#195	Elephant Alpha medium	Openrouter	1.5	4.3	$0.000	0/1	3.70s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 3.70s
#196	Hunter Alpha none	OpenRouter	1.5	4.2	$0.000	0/1	15.2s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 15.2s
#197	Grok 4.20 none	X AI	1.5	4.1	$0.057	0/1	6.04s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.057 Tiempo de respuesta (promedio) 6.04s
#198	Laguna Xs.2 medium	Poolside	1.5	4.1	$0.015	0/1	15.9s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 15.9s
#199	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.003 Tiempo de respuesta (promedio) 35.8s
#200	MiMo-V2-Flash none	Xiaomi	1.5	4.0	$0.025	0/1	2.87s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.025 Tiempo de respuesta (promedio) 2.87s
#202	Grok Build 0.1 none	X AI	1.5	4.0	$0.547	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.547 Tiempo de respuesta (promedio) 0ms
#203	Grok 4.1 Fast none	X AI	1.5	3.8	$0.008	0/1	3.33s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 3.33s
#205	Laguna Xs.2 none	Poolside	1.5	3.8	$0.004	0/1	2.01s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.004 Tiempo de respuesta (promedio) 2.01s
#206	gpt-oss-120b none	OpenAI	1.5	3.7	$0.010	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.010 Tiempo de respuesta (promedio) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.5	3.4	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1.5	3.2	$0.000	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.000 Tiempo de respuesta (promedio) 0ms
#209	Step 3.5 Flash none	Stepfun	1.5	2.3	$0.020	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.020 Tiempo de respuesta (promedio) 0ms
#210	LFM2-24B-A2B none	Liquid	1.5	2.2	$0.001	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.001 Tiempo de respuesta (promedio) 0ms
#109	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.333 Tiempo de respuesta (promedio) 64.7s

Ranking de Combinado

Filtrar modelos

Mejores modelos por Puntuación de Combinado

Puntuación de Combinado vs costo total

Mejores modelos por Tiempo de respuesta (promedio)