Ranking de Específico del dominio x Formato extra

Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

Grok Build 0.1 1

Motivos de fallo

Respuesta incorrecta412 Tiempo agotado43 Formato extra17 Sin respuesta8 Error de API7 No siguió las instrucciones1

Categorías

Trucos anti-IA20 Programación18 Específico del dominio17 Resolución de acertijos8 Análisis y extracción de datos6 Seguimiento de instrucciones3 Combinado1

13/13

Rango	Modelo	Empresa	Cantidad de Formato extra	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $1.097 Tiempo de respuesta (promedio) 158.0s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.777 Tiempo de respuesta (promedio) 27.0s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.187 Tiempo de respuesta (promedio) 37.9s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
Pruebas totales 3 Pruebas incorrectas 2 Costo total $0.082 Tiempo de respuesta (promedio) 34.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $2.057 Tiempo de respuesta (promedio) 0ms
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $3.059 Tiempo de respuesta (promedio) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.200 Tiempo de respuesta (promedio) 151.5s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.683 Tiempo de respuesta (promedio) 47.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.077 Tiempo de respuesta (promedio) 7.47s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.041 Tiempo de respuesta (promedio) 4.99s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $5.599 Tiempo de respuesta (promedio) 24.7s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.000 Tiempo de respuesta (promedio) 10.5s
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
Pruebas totales 3 Pruebas incorrectas 3 Costo total $0.057 Tiempo de respuesta (promedio) 687ms

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Específico del dominio: Formato extra

Filtrar modelos

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado