Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

230

Modelo más afectado

Qwen3.6 Flash 3

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Específico del dominio367 Trucos anti-IA270 Programación230 Resolución de acertijos172 Cultura general149 Combinado58 Seguimiento de instrucciones56 Inteligencia general49 Análisis y extracción de datos36 Llamada de herramientas3

134/134

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#152	Mistral Small 4 medium	Mistral	3	4.4	$0.068	0/3	40.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.068 Tiempo de respuesta (promedio) 40.0s
#154	Qwen3.5-9B none	Qwen	3	3.9	$0.006	0/3	5.60s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.006 Tiempo de respuesta (promedio) 5.60s
#158	GPT-4o-mini none	OpenAI	3	3.2	$0.006	0/3	1.63s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.006 Tiempo de respuesta (promedio) 1.63s
#160	GLM 4.7 Flash none	Z.ai	3	4.3	$0.004	0/3	2.54s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.004 Tiempo de respuesta (promedio) 2.54s
#161	Nemotron 3 Super none	NVIDIA	3	3.3	$0.006	0/3	2.64s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.006 Tiempo de respuesta (promedio) 2.64s
#164	GPT-5.4 Nano none	OpenAI	3	4.6	$0.011	0/3	2.22s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.011 Tiempo de respuesta (promedio) 2.22s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.011 Tiempo de respuesta (promedio) 1.03s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.536 Tiempo de respuesta (promedio) 160.7s
#37	GPT-5.6 Terra medium	OpenAI	2	6.1	$0.496	1/3	7.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.496 Tiempo de respuesta (promedio) 7.19s
#40	Gemini 3.1 Flash Lite Preview medium	Google	2	5.5	$0.068	1/3	4.09s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.068 Tiempo de respuesta (promedio) 4.09s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.317 Tiempo de respuesta (promedio) 125.3s
#42	Gemini 3.1 Flash Lite medium	Google	2	5.5	$0.071	1/3	3.81s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.071 Tiempo de respuesta (promedio) 3.81s
#47	GPT-5.6 Terra low	OpenAI	2	6.6	$0.343	1/3	9.56s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.343 Tiempo de respuesta (promedio) 9.56s
#50	GPT-5.6 Luna high	OpenAI	2	5.5	$0.924	1/3	15.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.924 Tiempo de respuesta (promedio) 15.6s
#54	GPT-5.6 Luna medium	OpenAI	2	5.4	$0.258	1/3	10.4s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.258 Tiempo de respuesta (promedio) 10.4s

←

1 2 3 9

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado