AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Específico del dominio: Respuesta incorrecta

Específico del dominio
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

15

Fallos totales

182

Modelo más afectado

MiniMax M2.5 2
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#71 MiniMax M2.5 medium Minimax 2 2.9 0/3 237.3s
#57 GPT-5 Nano medium OpenAI 1 5.2 1/3 204.0s
#93 GLM 4.7 Flash medium Z.ai 2 3.5 0/3 174.6s
#30 Step 3.5 Flash medium Stepfun 2 5.3 1/3 170.5s
#32 Qwen3.5-Flash medium Qwen 1 5.3 1/3 146.5s
#46 Kimi K2.5 medium Moonshot AI 2 3.5 0/3 137.3s
#11 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s
#52 Grok 4.1 Fast medium X AI 1 5.8 1/3 121.8s
#41 MiMo-V2-Flash medium Xiaomi 2 5.9 1/3 96.0s
#6 Seed-2.0-Lite medium Bytedance Seed 2 5.9 1/3 88.7s
#43 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#37 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#10 Qwen3.5-27B medium Qwen 1 5.3 1/3 79.5s
#40 GPT-5.2 medium OpenAI 1 5.9 1/3 77.8s
#16 GPT-5.4 medium OpenAI 2 5.3 1/3 74.3s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado