Ranking de Específico del dominio x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido.

Modelos mostrados

Fallos totales

412

Modelo más afectado

Muse Spark 1.1 3

Motivos de fallo

Respuesta incorrecta412 Tiempo agotado43 Formato extra17 Sin respuesta8 Error de API7 No siguió las instrucciones1

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

198/198

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.317 Tiempo de respuesta (promedio) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.106 Tiempo de respuesta (promedio) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $1.046 Tiempo de respuesta (promedio) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.093 Tiempo de respuesta (promedio) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.467 Tiempo de respuesta (promedio) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.524 Tiempo de respuesta (promedio) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.738 Tiempo de respuesta (promedio) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.544 Tiempo de respuesta (promedio) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.476 Tiempo de respuesta (promedio) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.779 Tiempo de respuesta (promedio) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.068 Tiempo de respuesta (promedio) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.090 Tiempo de respuesta (promedio) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.103 Tiempo de respuesta (promedio) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.044 Tiempo de respuesta (promedio) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.066 Tiempo de respuesta (promedio) 1.33s

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Específico del dominio: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado