Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Step 3.5 Flash 4

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.676 Tiempo de respuesta (promedio) 7.11s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.571 Tiempo de respuesta (promedio) 6.88s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.015 Tiempo de respuesta (promedio) 6.73s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.164 Tiempo de respuesta (promedio) 6.70s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $0.177 Tiempo de respuesta (promedio) 6.28s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.017 Tiempo de respuesta (promedio) 6.20s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.548 Tiempo de respuesta (promedio) 6.04s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.369 Tiempo de respuesta (promedio) 6.01s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 5.97s
#14	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $0.433 Tiempo de respuesta (promedio) 5.55s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.061 Tiempo de respuesta (promedio) 5.52s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.021 Tiempo de respuesta (promedio) 5.34s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.519 Tiempo de respuesta (promedio) 5.31s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.044 Tiempo de respuesta (promedio) 5.18s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.187 Tiempo de respuesta (promedio) 5.15s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)