Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Gemini 3 Flash Preview 1

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Pruebas totales 22 Pruebas incorrectas 1 Costo total $0.742 Tiempo de respuesta (promedio) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.976 Tiempo de respuesta (promedio) 15.1s
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Pruebas totales 12 Pruebas incorrectas 6 Costo total $0.020 Tiempo de respuesta (promedio) 39.0s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.361 Tiempo de respuesta (promedio) 21.5s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $0.642 Tiempo de respuesta (promedio) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $0.433 Tiempo de respuesta (promedio) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $1.707 Tiempo de respuesta (promedio) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $3.478 Tiempo de respuesta (promedio) 17.2s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.163 Tiempo de respuesta (promedio) 75.4s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.837 Tiempo de respuesta (promedio) 112.5s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Pruebas totales 16 Pruebas incorrectas 3 Costo total $2.310 Tiempo de respuesta (promedio) 68.1s
#175	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Pruebas totales 19 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 15.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $1.253 Tiempo de respuesta (promedio) 10.1s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.116 Tiempo de respuesta (promedio) 40.6s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)