Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Pruebas totales 21 Pruebas incorrectas 7 Costo total $0.385 Tiempo de respuesta (promedio) 9.05s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 9.12s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.016 Tiempo de respuesta (promedio) 9.15s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.128 Tiempo de respuesta (promedio) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.584 Tiempo de respuesta (promedio) 9.48s
#193	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.032 Tiempo de respuesta (promedio) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $5.599 Tiempo de respuesta (promedio) 9.69s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
Pruebas totales 18 Pruebas incorrectas 4 Costo total $0.750 Tiempo de respuesta (promedio) 9.75s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.073 Tiempo de respuesta (promedio) 9.85s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 9.88s
#83	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.079 Tiempo de respuesta (promedio) 9.93s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.041 Tiempo de respuesta (promedio) 10.1s
#1	Gemini 3.6 Flash medium	Google	1	9.9	$0.831	21/22	10.1s
Pruebas totales 22 Pruebas incorrectas 1 Costo total $0.831 Tiempo de respuesta (promedio) 10.1s
#9	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $1.253 Tiempo de respuesta (promedio) 10.1s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 10.3s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)