Ranking de modelos de Combinado

Mira qué modelos de IA rinden mejor en Combinado, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Combinado

5.6

Mejor modelo

Gemini 3 PRO Preview 1.5

Motivos de fallo

Con motivo de fallo Llamada de herramienta no válida91 Con motivo de fallo Respuesta incorrecta69 Con motivo de fallo Sin respuesta32 Con motivo de fallo Error de API26 Con motivo de fallo Tiempo agotado5 Con motivo de fallo Formato extra1 Con motivo de fallo No siguió las instrucciones1

216/216

Rango	Modelo	Empresa	Puntuación de Combinado	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#177	North Mini Code none	Cohere	3.2	5.1	$0.000	0/2	96.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 96.2s
#98	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.457 Tiempo de respuesta (promedio) 15.1s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.340 Tiempo de respuesta (promedio) 83.2s
#93	Gemini 3 Flash Preview none	Google	3.8	6.8	$0.085	0/2	12.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.085 Tiempo de respuesta (promedio) 12.4s
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.369 Tiempo de respuesta (promedio) 28.7s
#178	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	72.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 72.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.067 Tiempo de respuesta (promedio) 73.0s
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.021 Tiempo de respuesta (promedio) 30.0s
#125	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.837 Tiempo de respuesta (promedio) 512.8s
#130	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.062 Tiempo de respuesta (promedio) 26.5s
#133	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.106 Tiempo de respuesta (promedio) 128.3s
#167	Qwen3.6 35B A3B none	Qwen	3.8	5.3	$0.061	0/2	39.5s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.061 Tiempo de respuesta (promedio) 39.5s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.476 Tiempo de respuesta (promedio) 183.1s
#156	DeepSeek V4 Flash none	DeepSeek	4.6	5.6	$0.042	0/2	179.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.042 Tiempo de respuesta (promedio) 179.6s
#99	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.505 Tiempo de respuesta (promedio) 18.3s

Ranking de Combinado

Filtrar modelos

Mejores modelos por Puntuación de Combinado

Puntuación de Combinado vs costo total

Mejores modelos por Tiempo de respuesta (promedio)