Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

230

Modelo más afectado

Qwen3.6 Flash 3

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Específico del dominio367 Trucos anti-IA270 Programación230 Resolución de acertijos172 Cultura general149 Combinado58 Seguimiento de instrucciones56 Inteligencia general49 Análisis y extracción de datos36 Llamada de herramientas3

134/134

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.433 Tiempo de respuesta (promedio) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.107 Tiempo de respuesta (promedio) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.111 Tiempo de respuesta (promedio) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.609 Tiempo de respuesta (promedio) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.457 Tiempo de respuesta (promedio) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.023 Tiempo de respuesta (promedio) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.030 Tiempo de respuesta (promedio) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.036 Tiempo de respuesta (promedio) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.054 Tiempo de respuesta (promedio) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.080 Tiempo de respuesta (promedio) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.061 Tiempo de respuesta (promedio) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.013 Tiempo de respuesta (promedio) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.081 Tiempo de respuesta (promedio) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.026 Tiempo de respuesta (promedio) 1.39s

←

1 2 3 4 9

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado