Ranking de Programación x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Programación, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Motivos de fallo

Respuesta incorrecta26 Tiempo agotado12 Error de API6 No siguió las instrucciones2

Categorías

Específico del dominio173 Trucos anti-IA156 Resolución de acertijos80 Seguimiento de instrucciones43 Combinado34 Programación26 Análisis y extracción de datos17 Inteligencia general10 Llamada de herramientas2

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Pruebas correctas	Tiempo de respuesta (promedio)
#32	MiMo-V2-Omni medium	Xiaomi	1	4.0	0/1	68.5s
#44	Grok 4.20 medium	X AI	1	4.3	0/1	24.3s
#46	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.3	0/1	3.63s
#50	GLM 5 none	Z.ai	1	5.6	0/1	8.84s
#52	MiMo-V2-Omni none	Xiaomi	1	6.6	0/1	1.72s
#54	GPT-5 Nano medium	OpenAI	1	6.7	0/1	40.7s
#61	DeepSeek V3.2 none	DeepSeek	1	2.4	0/1	7.63s
#65	gpt-oss-120b medium	OpenAI	1	4.3	0/1	26.3s
#66	Qwen3.5-122B-A10B none	Qwen	1	4.3	0/1	3.44s
#69	Mistral Small 4 medium	Mistral	1	6.7	0/1	30.5s
#70	GLM 4.7 Flash none	Z.ai	1	6.4	0/1	5.57s
#71	GLM 5.1 none	Z.ai	1	5.1	0/1	9.79s
#73	GLM 5 Turbo none	Z.ai	1	5.3	0/1	3.93s
#74	Trinity Large Preview none	Arcee AI	1	6.3	0/1	39.5s
#75	Grok 4.20 Beta none	X AI	1	5.5	0/1	1.14s

Mejores modelos por Cantidad de Respuesta incorrecta