Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↓.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Gemini 3.6 Flash 1

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.197 Tiempo de respuesta (promedio) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.478 Tiempo de respuesta (promedio) 136.6s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $0.177 Tiempo de respuesta (promedio) 6.28s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.387 Tiempo de respuesta (promedio) 19.5s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.661 Tiempo de respuesta (promedio) 8.12s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.115 Tiempo de respuesta (promedio) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.117 Tiempo de respuesta (promedio) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.166 Tiempo de respuesta (promedio) 4.91s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.454 Tiempo de respuesta (promedio) 20.7s
#72	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.036 Tiempo de respuesta (promedio) 110.0s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.482 Tiempo de respuesta (promedio) 20.8s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.317 Tiempo de respuesta (promedio) 46.4s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.106 Tiempo de respuesta (promedio) 12.1s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.046 Tiempo de respuesta (promedio) 64.2s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)