Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#89	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.085 Tiempo de respuesta (promedio) 2.95s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 2.98s
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.052 Tiempo de respuesta (promedio) 2.99s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Pruebas totales 19 Pruebas incorrectas 3 Costo total $0.505 Tiempo de respuesta (promedio) 3.02s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.095 Tiempo de respuesta (promedio) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Pruebas totales 21 Pruebas incorrectas 12 Costo total $0.041 Tiempo de respuesta (promedio) 4.03s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.068 Tiempo de respuesta (promedio) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.117 Tiempo de respuesta (promedio) 4.27s
#116	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.066 Tiempo de respuesta (promedio) 4.40s
#59	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.197 Tiempo de respuesta (promedio) 4.52s
#64	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.115 Tiempo de respuesta (promedio) 4.61s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 4.62s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.000 Tiempo de respuesta (promedio) 4.70s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)