Ranking de modelos de Combinado

Mira qué modelos de IA rinden mejor en Combinado, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Combinado

5.5

Mejor modelo

Gemini 3 PRO Preview 1.5

Motivos de fallo

Con motivo de fallo Llamada de herramienta no válida96 Con motivo de fallo Respuesta incorrecta71 Con motivo de fallo Sin respuesta33 Con motivo de fallo Error de API26 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Formato extra1 Con motivo de fallo No siguió las instrucciones1

220/220

Rango	Modelo	Empresa	Puntuación de Combinado	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.300 Tiempo de respuesta (promedio) 14.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.746 Tiempo de respuesta (promedio) 817.6s
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.646 Tiempo de respuesta (promedio) 160.6s
#112	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.052 Tiempo de respuesta (promedio) 6.23s
#122	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.066 Tiempo de respuesta (promedio) 25.6s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.017 Tiempo de respuesta (promedio) 61.2s
#126	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.047 Tiempo de respuesta (promedio) 7.75s
#128	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.046 Tiempo de respuesta (promedio) 9.49s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.095 Tiempo de respuesta (promedio) 21.1s
#144	Kimi K2.6 none	Moonshot AI	3.0	5.8	$0.184	0/2	77.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.184 Tiempo de respuesta (promedio) 77.8s
#145	GPT-5.4 none	OpenAI	3.0	5.8	$0.397	0/2	9.26s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.397 Tiempo de respuesta (promedio) 9.26s
#160	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.068	0/2	28.3s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.068 Tiempo de respuesta (promedio) 28.3s
#162	Gemma 4 26B A4B none	Google	3.0	5.5	$0.015	0/2	37.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 37.2s
#168	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/2	10.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 10.4s
#173	Mistral Small 4 none	Mistral	3.0	5.1	$0.022	0/2	7.44s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.022 Tiempo de respuesta (promedio) 7.44s

Ranking de Combinado

Filtrar modelos

Mejores modelos por Puntuación de Combinado

Puntuación de Combinado vs costo total

Mejores modelos por Tiempo de respuesta (promedio)