Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

1642

Modelo más afectado

Gemini 3.6 Flash 1

Categorías

En la categoría Específico del dominio433 En la categoría Trucos anti-IA306 En la categoría Programación266 En la categoría Resolución de acertijos214 En la categoría Cultura general176 En la categoría Combinado71 En la categoría Inteligencia general66 En la categoría Seguimiento de instrucciones65 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas4

219/219

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.515 Tiempo de respuesta (promedio) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.604 Tiempo de respuesta (promedio) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.796	14/22	62.7s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.796 Tiempo de respuesta (promedio) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.055 Tiempo de respuesta (promedio) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.234 Tiempo de respuesta (promedio) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.676 Tiempo de respuesta (promedio) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $2.057 Tiempo de respuesta (promedio) 25.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.097 Tiempo de respuesta (promedio) 52.1s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.352 Tiempo de respuesta (promedio) 7.28s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.437 Tiempo de respuesta (promedio) 89.2s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.046 Tiempo de respuesta (promedio) 64.2s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.300 Tiempo de respuesta (promedio) 2.65s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.089 Tiempo de respuesta (promedio) 103.8s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.107 Tiempo de respuesta (promedio) 75.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.647 Tiempo de respuesta (promedio) 11.5s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)