Ranking de Inteligencia general x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.5 1

Motivos de fallo

No siguió las instrucciones78 Respuesta incorrecta59 Error de API12 Tiempo agotado4

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

59/59

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.096 Tiempo de respuesta (promedio) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.524 Tiempo de respuesta (promedio) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.738 Tiempo de respuesta (promedio) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $1.207 Tiempo de respuesta (promedio) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.391 Tiempo de respuesta (promedio) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.476 Tiempo de respuesta (promedio) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.151 Tiempo de respuesta (promedio) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.469 Tiempo de respuesta (promedio) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.231 Tiempo de respuesta (promedio) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.068 Tiempo de respuesta (promedio) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.621 Tiempo de respuesta (promedio) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.073 Tiempo de respuesta (promedio) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.044 Tiempo de respuesta (promedio) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.249 Tiempo de respuesta (promedio) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.017 Tiempo de respuesta (promedio) 615ms

←

1 2 3 4

→

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Inteligencia general: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado