Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

230

Modelo más afectado

Qwen3.6 Flash 3

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado25 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Específico del dominio368 Trucos anti-IA270 Programación230 Resolución de acertijos173 Cultura general150 Combinado58 Seguimiento de instrucciones56 Inteligencia general49 Análisis y extracción de datos36 Llamada de herramientas3

134/134

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.052 Tiempo de respuesta (promedio) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.122 Tiempo de respuesta (promedio) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.027 Tiempo de respuesta (promedio) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.017 Tiempo de respuesta (promedio) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.025 Tiempo de respuesta (promedio) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.004 Tiempo de respuesta (promedio) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.032 Tiempo de respuesta (promedio) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.038 Tiempo de respuesta (promedio) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.016 Tiempo de respuesta (promedio) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.031 Tiempo de respuesta (promedio) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.006 Tiempo de respuesta (promedio) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.008 Tiempo de respuesta (promedio) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.025 Tiempo de respuesta (promedio) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Pruebas totales 3 Pruebas incorrectas 1 Costo total $0.667 Tiempo de respuesta (promedio) 84.4s

←

1 4 5 6 9

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado