Ranking de Cultura general x Respuesta incorrecta

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Cultura general, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

133

Modelo más afectado

Qwen3.7 Max 1

Motivos de fallo

Respuesta incorrecta133 Error de API13 Sin respuesta8

Categorías

Específico del dominio325 Trucos anti-IA250 Programación201 Resolución de acertijos154 Cultura general133 Seguimiento de instrucciones54 Combinado53 Inteligencia general36 Análisis y extracción de datos35 Llamada de herramientas2

133/133

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.177 Tiempo de respuesta (promedio) 91.1s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	3.0	$0.158	0/1	38.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.158 Tiempo de respuesta (promedio) 38.5s
#27	GPT-5.4 Mini medium	OpenAI	1	3.0	$0.526	0/1	30.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.526 Tiempo de respuesta (promedio) 30.1s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.310 Tiempo de respuesta (promedio) 103.8s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.536 Tiempo de respuesta (promedio) 85.1s
#30	Qwen3.6 Plus medium	Qwen	1	3.0	$0.294	0/1	47.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.294 Tiempo de respuesta (promedio) 47.5s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.418 Tiempo de respuesta (promedio) 30.1s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	3.0	$0.068	0/1	2.68s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.068 Tiempo de respuesta (promedio) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.317 Tiempo de respuesta (promedio) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	1	3.0	$0.071	0/1	3.08s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.071 Tiempo de respuesta (promedio) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.889 Tiempo de respuesta (promedio) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.588 Tiempo de respuesta (promedio) 52.9s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.614 Tiempo de respuesta (promedio) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $2.053 Tiempo de respuesta (promedio) 63.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	3.0	$0.157	0/1	34.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.157 Tiempo de respuesta (promedio) 34.0s

←

1 2 3 9

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Cultura general: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado