Ranking de fallos por Formato extra

Fallos AI BENCHY

Mira qué modelos de IA se encuentran con Formato extra con más frecuencia para detectar riesgos de fiabilidad antes de elegir.

Modelos mostrados

Fallos totales

Modelo más afectado

Categorías relacionadas

Trucos anti-IA8 Específico del dominio3 Análisis y extracción de datos1 Resolución de acertijos1

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntaje prom.	Pruebas correctas	Tiempo de respuesta (promedio)
#26	Claude Opus 4.6 medium	Anthropic	4	6.6	10/16	22.9s
#25	Claude Sonnet 4.6 none	Anthropic	3	6.8	10/16	5.57s
#11	Claude Sonnet 4.6 medium	Anthropic	2	7.7	12/16	11.2s
#33	DeepSeek V3.2 none	DeepSeek	2	5.5	7/16	12.9s
#48	Qwen3 Coder Next none	Qwen	1	4.0	4/16	11.7s
#54	MiMo-V2-Flash none	Xiaomi	1	2.9	3/16	2.97s

Fallos por Formato extra