Ranking de Programación x Formato extra

Fallos por categoría de AI BENCHY

Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Programación, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

MiniMax M3 1

Motivos de fallo

Respuesta incorrecta230 Error de API43 Tiempo agotado23 Sin respuesta18 No siguió las instrucciones16 Formato extra12

Categorías

Trucos anti-IA20 Específico del dominio13 Programación12 Resolución de acertijos6 Análisis y extracción de datos4 Seguimiento de instrucciones3 Combinado1

12/12

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.131 Tiempo de respuesta (promedio) 144.7s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.288 Tiempo de respuesta (promedio) 109.6s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.927 Tiempo de respuesta (promedio) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.106 Tiempo de respuesta (promedio) 92.1s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.614 Tiempo de respuesta (promedio) 41.2s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 36.9s
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.418 Tiempo de respuesta (promedio) 33.3s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $2.053 Tiempo de respuesta (promedio) 30.1s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.270 Tiempo de respuesta (promedio) 7.58s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.316 Tiempo de respuesta (promedio) 5.19s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.021 Tiempo de respuesta (promedio) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.003 Tiempo de respuesta (promedio) 775ms

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Programación: Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado