Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 17.1s
#20	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $3.478 Tiempo de respuesta (promedio) 17.2s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.054 Tiempo de respuesta (promedio) 18.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.017 Tiempo de respuesta (promedio) 18.7s
#161	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.127 Tiempo de respuesta (promedio) 19.2s
#175	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.021 Tiempo de respuesta (promedio) 19.2s
#3	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Pruebas totales 22 Pruebas incorrectas 1 Costo total $0.742 Tiempo de respuesta (promedio) 19.2s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.387 Tiempo de respuesta (promedio) 19.5s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.184 Tiempo de respuesta (promedio) 19.6s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.454 Tiempo de respuesta (promedio) 20.7s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.482 Tiempo de respuesta (promedio) 20.8s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.643 Tiempo de respuesta (promedio) 21.2s
#10	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.361 Tiempo de respuesta (promedio) 21.5s
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.010 Tiempo de respuesta (promedio) 21.6s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)