Ranking de fallos por Formato extra

Mira qué modelos de IA se encuentran con Formato extra con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Granite 4.1 8B 1

Categorías

En la categoría Trucos anti-IA20 En la categoría Programación18 En la categoría Específico del dominio17 En la categoría Resolución de acertijos8 En la categoría Análisis y extracción de datos6 En la categoría Seguimiento de instrucciones3 En la categoría Combinado1

42/42

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s
#199	Hy3 preview none	Tencent	1	4.0	$0.003	4/21	12.9s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.003 Tiempo de respuesta (promedio) 12.9s
#200	MiMo-V2-Flash none	Xiaomi	1	4.0	$0.025	4/21	2.76s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 2.76s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.044 Tiempo de respuesta (promedio) 36.8s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 9.12s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 4.62s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	3	4.8	$0.067	5/22	12.2s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.067 Tiempo de respuesta (promedio) 12.2s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#173	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.054 Tiempo de respuesta (promedio) 18.3s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.044 Tiempo de respuesta (promedio) 5.18s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.077 Tiempo de respuesta (promedio) 15.9s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.041 Tiempo de respuesta (promedio) 10.1s

Fallos por Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)