Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Gemini 3.6 Flash 1

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.200 Tiempo de respuesta (promedio) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.756 Tiempo de respuesta (promedio) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $0.177 Tiempo de respuesta (promedio) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.777 Tiempo de respuesta (promedio) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $1.207 Tiempo de respuesta (promedio) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.469 Tiempo de respuesta (promedio) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.779 Tiempo de respuesta (promedio) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.163 Tiempo de respuesta (promedio) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.015 Tiempo de respuesta (promedio) 6.73s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.055 Tiempo de respuesta (promedio) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.017 Tiempo de respuesta (promedio) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.774 Tiempo de respuesta (promedio) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.571 Tiempo de respuesta (promedio) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.197 Tiempo de respuesta (promedio) 4.52s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)