Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Step 3.5 Flash 4

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#130	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.108 Tiempo de respuesta (promedio) 174.2s
#97	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.469 Tiempo de respuesta (promedio) 148.7s
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.166 Tiempo de respuesta (promedio) 142.6s
#137	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.000 Tiempo de respuesta (promedio) 137.1s
#60	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.478 Tiempo de respuesta (promedio) 136.6s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.837 Tiempo de respuesta (promedio) 112.5s
#58	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.036 Tiempo de respuesta (promedio) 110.0s
#99	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.779 Tiempo de respuesta (promedio) 106.3s
#95	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.089 Tiempo de respuesta (promedio) 103.8s
#91	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.391 Tiempo de respuesta (promedio) 100.3s
#77	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.600 Tiempo de respuesta (promedio) 99.0s
#80	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.101 Tiempo de respuesta (promedio) 92.5s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.437 Tiempo de respuesta (promedio) 89.2s
#114	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.139 Tiempo de respuesta (promedio) 84.8s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)