Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

230

Modelo más afectado

Laguna XS 2.1 3

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Específico del dominio367 Trucos anti-IA270 Programación230 Resolución de acertijos172 Cultura general149 Combinado58 Seguimiento de instrucciones56 Inteligencia general49 Análisis y extracción de datos36 Llamada de herramientas3

134/134

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 623ms
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 736ms
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 775ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.013 Tiempo de respuesta (promedio) 831ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.005 Tiempo de respuesta (promedio) 850ms
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.007 Tiempo de respuesta (promedio) 901ms
#143	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.038 Tiempo de respuesta (promedio) 913ms
#167	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.008 Tiempo de respuesta (promedio) 924ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.013 Tiempo de respuesta (promedio) 938ms
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.018 Tiempo de respuesta (promedio) 967ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.047 Tiempo de respuesta (promedio) 980ms
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.130 Tiempo de respuesta (promedio) 1.00s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.027 Tiempo de respuesta (promedio) 1.02s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.011 Tiempo de respuesta (promedio) 1.03s
#168	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 1.14s

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado