Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↓.

Modelos mostrados

Fallos totales

1558

Modelo más afectado

Gemini 3 Flash Preview 1

Categorías

En la categoría Específico del dominio412 En la categoría Trucos anti-IA293 En la categoría Programación252 En la categoría Resolución de acertijos201 En la categoría Cultura general168 En la categoría Combinado68 En la categoría Seguimiento de instrucciones61 En la categoría Inteligencia general59 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

209/209

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Pruebas totales 22 Pruebas incorrectas 1 Costo total $0.742 Tiempo de respuesta (promedio) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.976 Tiempo de respuesta (promedio) 15.1s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $0.971 Tiempo de respuesta (promedio) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.316 Tiempo de respuesta (promedio) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.234 Tiempo de respuesta (promedio) 11.7s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $1.253 Tiempo de respuesta (promedio) 10.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.361 Tiempo de respuesta (promedio) 21.5s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.116 Tiempo de respuesta (promedio) 40.6s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $0.642 Tiempo de respuesta (promedio) 8.20s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $4.137 Tiempo de respuesta (promedio) 38.4s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $0.433 Tiempo de respuesta (promedio) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $1.707 Tiempo de respuesta (promedio) 76.5s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $0.920 Tiempo de respuesta (promedio) 17.0s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.931 Tiempo de respuesta (promedio) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.477 Tiempo de respuesta (promedio) 7.61s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)