Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

230

Modelo más afectado

Qwen3.6 Flash 3

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Específico del dominio367 Trucos anti-IA270 Programación230 Resolución de acertijos172 Cultura general149 Combinado58 Seguimiento de instrucciones56 Inteligencia general49 Análisis y extracción de datos36 Llamada de herramientas3

134/134

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.288 Tiempo de respuesta (promedio) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.075 Tiempo de respuesta (promedio) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.027 Tiempo de respuesta (promedio) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.016 Tiempo de respuesta (promedio) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.287 Tiempo de respuesta (promedio) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.057 Tiempo de respuesta (promedio) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.047 Tiempo de respuesta (promedio) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.047 Tiempo de respuesta (promedio) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.020 Tiempo de respuesta (promedio) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.009 Tiempo de respuesta (promedio) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 22.0s

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado