AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Específico del dominio: Respuesta incorrecta

Específico del dominio
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

15

Fallos totales

182

Modelo más afectado

Qwen3.6 Plus Preview 3
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#9 Qwen3.6 Plus Preview medium Qwen 3 3.0 0/3 22.1s
#13 GLM 5 medium Z.ai 2 3.5 0/3 0ms
#17 Gemini 3.1 Flash Lite Preview medium Google 3 3.0 0/3 4.21s
#18 GLM 5 Turbo medium Z.ai 2 2.9 0/3 71.1s
#19 Qwen3.5-122B-A10B medium Qwen 3 2.9 0/3 63.4s
#20 Qwen3.6 Plus medium Qwen 3 2.9 0/3 29.6s
#24 Gemma 4 26B A4B medium Google 2 2.9 0/3 23.6s
#26 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#35 MiMo-V2-Omni medium Xiaomi 1 3.0 0/3 55.1s
#36 GPT-5.3 Chat none OpenAI 3 3.5 0/3 13.0s
#37 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#43 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#44 GPT-5.4 Mini medium OpenAI 3 4.1 0/3 65.3s
#45 GPT-5 Mini medium OpenAI 2 3.6 0/3 44.6s
#46 Kimi K2.5 medium Moonshot AI 2 3.5 0/3 137.3s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado