Ranking de fallos por Formato extra

Mira qué modelos de IA se encuentran con Formato extra con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

North Mini Code 2

Categorías

En la categoría Trucos anti-IA20 En la categoría Programación18 En la categoría Específico del dominio17 En la categoría Resolución de acertijos8 En la categoría Análisis y extracción de datos6 En la categoría Seguimiento de instrucciones3 En la categoría Combinado1

42/42

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.000 Tiempo de respuesta (promedio) 137.1s
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $3.112 Tiempo de respuesta (promedio) 122.5s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Pruebas totales 22 Pruebas incorrectas 19 Costo total $0.036 Tiempo de respuesta (promedio) 82.2s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.200 Tiempo de respuesta (promedio) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.286 Tiempo de respuesta (promedio) 75.0s
#48	Grok Build 0.1 medium	X AI	3	7.6	$1.097	14/22	52.1s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.097 Tiempo de respuesta (promedio) 52.1s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.779 Tiempo de respuesta (promedio) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.535 Tiempo de respuesta (promedio) 46.8s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Pruebas totales 21 Pruebas incorrectas 11 Costo total $0.683 Tiempo de respuesta (promedio) 41.2s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.044 Tiempo de respuesta (promedio) 36.8s
#43	Claude Opus 4.6 medium	Anthropic	5	7.7	$3.059	13/22	34.3s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $3.059 Tiempo de respuesta (promedio) 34.3s
#84	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.187 Tiempo de respuesta (promedio) 33.9s
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.082 Tiempo de respuesta (promedio) 32.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s

Fallos por Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)