Ranking de fallos por Formato extra

Mira qué modelos de IA se encuentran con Formato extra con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok 4.20 1

Categorías

En la categoría Trucos anti-IA20 En la categoría Programación18 En la categoría Específico del dominio17 En la categoría Resolución de acertijos8 En la categoría Análisis y extracción de datos6 En la categoría Seguimiento de instrucciones3 En la categoría Combinado1

42/42

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Pruebas totales 21 Pruebas incorrectas 13 Costo total $0.021 Tiempo de respuesta (promedio) 2.44s
#200	MiMo-V2-Flash none	Xiaomi	1	4.0	$0.025	4/21	2.76s
Pruebas totales 21 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 2.76s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 4.62s
#66	Claude Opus 4.8 none	Anthropic	3	7.3	$1.166	13/22	4.91s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.166 Tiempo de respuesta (promedio) 4.91s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.044 Tiempo de respuesta (promedio) 5.18s
#112	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.548 Tiempo de respuesta (promedio) 6.04s
#63	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.661 Tiempo de respuesta (promedio) 8.12s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.048 Tiempo de respuesta (promedio) 8.42s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.025 Tiempo de respuesta (promedio) 9.12s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Pruebas totales 18 Pruebas incorrectas 10 Costo total $5.599 Tiempo de respuesta (promedio) 9.69s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 9.88s

Fallos por Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)