Ranking de fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

1585

Modelo más afectado

LFM2-24B-A2B 9

Categorías

En la categoría Específico del dominio421 En la categoría Trucos anti-IA293 En la categoría Programación259 En la categoría Resolución de acertijos204 En la categoría Cultura general172 En la categoría Combinado69 En la categoría Inteligencia general62 En la categoría Seguimiento de instrucciones61 En la categoría Análisis y extracción de datos41 En la categoría Llamada de herramientas3

215/215

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.621 Tiempo de respuesta (promedio) 16.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.646 Tiempo de respuesta (promedio) 16.7s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.068 Tiempo de respuesta (promedio) 47.9s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.090 Tiempo de respuesta (promedio) 4.76s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.082 Tiempo de respuesta (promedio) 32.2s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
Pruebas totales 21 Pruebas incorrectas 7 Costo total $0.018 Tiempo de respuesta (promedio) 16.3s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.779 Tiempo de respuesta (promedio) 106.3s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.369 Tiempo de respuesta (promedio) 6.01s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.231 Tiempo de respuesta (promedio) 7.82s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.469 Tiempo de respuesta (promedio) 148.7s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.128 Tiempo de respuesta (promedio) 9.34s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.089 Tiempo de respuesta (promedio) 103.8s
#99	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Pruebas totales 19 Pruebas incorrectas 3 Costo total $0.505 Tiempo de respuesta (promedio) 3.02s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Pruebas totales 21 Pruebas incorrectas 10 Costo total $0.457 Tiempo de respuesta (promedio) 23.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.476 Tiempo de respuesta (promedio) 25.6s

Fallos por Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)