Ranking de fallos por Formato extra

Mira qué modelos de IA se encuentran con Formato extra con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.20 1

Categorías

En la categoría Trucos anti-IA20 En la categoría Programación18 En la categoría Específico del dominio17 En la categoría Resolución de acertijos8 En la categoría Análisis y extracción de datos6 En la categoría Seguimiento de instrucciones3 En la categoría Combinado1

42/42

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.041 Tiempo de respuesta (promedio) 10.1s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $0.000 Tiempo de respuesta (promedio) 10.3s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.096 Tiempo de respuesta (promedio) 11.6s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	3	4.8	$0.067	5/22	12.2s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.067 Tiempo de respuesta (promedio) 12.2s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $2.077 Tiempo de respuesta (promedio) 12.7s
#199	Hy3 preview none	Tencent	1	4.0	$0.003	4/21	12.9s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.003 Tiempo de respuesta (promedio) 12.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.077 Tiempo de respuesta (promedio) 15.9s
#173	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.054 Tiempo de respuesta (promedio) 18.3s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.043 Tiempo de respuesta (promedio) 20.1s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Pruebas totales 21 Pruebas incorrectas 9 Costo total $0.333 Tiempo de respuesta (promedio) 22.2s
#40	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$2.057	14/22	25.9s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $2.057 Tiempo de respuesta (promedio) 25.9s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.777 Tiempo de respuesta (promedio) 29.5s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.082 Tiempo de respuesta (promedio) 32.2s
#84	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.187 Tiempo de respuesta (promedio) 33.9s

Fallos por Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)