Ranking de fallos por Formato extra

Mira qué modelos de IA se encuentran con Formato extra con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Kimi K3 1

Categorías

En la categoría Trucos anti-IA20 En la categoría Programación18 En la categoría Específico del dominio17 En la categoría Resolución de acertijos8 En la categoría Análisis y extracción de datos6 En la categoría Seguimiento de instrucciones3 En la categoría Combinado1

42/42

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.021 Tiempo de respuesta (promedio) 2.44s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 9.12s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 4.62s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 10.3s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s
#199	Hy3 preview none	Tencent	1	4.0	$0.003	4/21	12.9s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.003 Tiempo de respuesta (promedio) 12.9s
#200	MiMo-V2-Flash none	Xiaomi	1	4.0	$0.025	4/21	2.76s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 2.76s
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.082 Tiempo de respuesta (promedio) 32.2s
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.000 Tiempo de respuesta (promedio) 137.1s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.044 Tiempo de respuesta (promedio) 36.8s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s

Fallos por Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)