Ranking de Combinado x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Combinado, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3 Flash Preview 2

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

63/63

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.177 Tiempo de respuesta (promedio) 10.2s
#139	GPT-5.4 none	OpenAI	2	3.0	$0.397	0/2	9.26s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.397 Tiempo de respuesta (promedio) 9.26s
#165	Mistral Small 4 none	Mistral	2	3.0	$0.022	0/2	7.44s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.022 Tiempo de respuesta (promedio) 7.44s
#177	Nemotron 3 Super none	NVIDIA	2	3.0	$0.008	0/2	18.2s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 18.2s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.030 Tiempo de respuesta (promedio) 2.56s
#20	Grok 4.5 low	X AI	1	6.5	$0.935	1/2	12.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.935 Tiempo de respuesta (promedio) 12.8s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.751 Tiempo de respuesta (promedio) 66.0s
#59	Qwen3.7 Max none	Qwen	1	6.5	$0.197	1/2	37.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.197 Tiempo de respuesta (promedio) 37.2s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	1/2	8.37s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.524 Tiempo de respuesta (promedio) 8.37s
#87	GPT-5.5 none	OpenAI	1	6.5	$0.544	1/2	8.90s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.544 Tiempo de respuesta (promedio) 8.90s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.085 Tiempo de respuesta (promedio) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.476 Tiempo de respuesta (promedio) 183.1s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.231 Tiempo de respuesta (promedio) 61.6s
#103	Qwen3.5-27B none	Qwen	1	6.4	$0.090	1/2	39.4s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.090 Tiempo de respuesta (promedio) 39.4s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.646 Tiempo de respuesta (promedio) 160.6s

1 2 3 4 5

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado