Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

230

Modelo más afectado

Qwen3.6 Flash 3

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado25 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Específico del dominio368 Trucos anti-IA270 Programación230 Resolución de acertijos173 Cultura general150 Combinado58 Seguimiento de instrucciones56 Inteligencia general49 Análisis y extracción de datos36 Llamada de herramientas3

134/134

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.018 Tiempo de respuesta (promedio) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.028 Tiempo de respuesta (promedio) 1.53s
#102	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.225 Tiempo de respuesta (promedio) 1.39s
#105	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.231 Tiempo de respuesta (promedio) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.019 Tiempo de respuesta (promedio) 2.83s
#108	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.141 Tiempo de respuesta (promedio) 4.61s
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.016 Tiempo de respuesta (promedio) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.013 Tiempo de respuesta (promedio) 831ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.013 Tiempo de respuesta (promedio) 938ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.005 Tiempo de respuesta (promedio) 850ms
#114	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.004 Tiempo de respuesta (promedio) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.027 Tiempo de respuesta (promedio) 1.02s
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.130 Tiempo de respuesta (promedio) 1.00s
#119	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.015 Tiempo de respuesta (promedio) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.012 Tiempo de respuesta (promedio) 1.39s

←

1 3 4 5 9

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado