AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Específico del dominio: Respuesta incorrecta

Específico del dominio
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

182

Modelo más afectado

Qwen3.6 Plus Preview 3
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#81 Elephant medium Openrouter 3 3.0 0/3 925ms
#84 gpt-oss-120b none OpenAI 3 3.0 0/3 35.0s
#85 Elephant none Openrouter 3 3.0 0/3 927ms
#86 GPT-5.4 Mini none OpenAI 3 3.5 0/3 937ms
#88 Nemotron 3 Super none NVIDIA 3 3.6 0/3 6.23s
#89 GPT-4o-mini none OpenAI 3 3.0 0/3 637ms
#90 Qwen3.5-9B none Qwen 3 3.0 0/3 464ms
#96 GPT-5.4 Nano none OpenAI 3 2.9 0/3 926ms
#5 Gemini 3 Flash Preview low Google 2 5.3 1/3 8.05s
#6 Seed-2.0-Lite medium Bytedance Seed 2 5.9 1/3 88.7s
#7 GPT-5.3-Codex medium OpenAI 2 5.9 1/3 64.3s
#11 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s
#12 Gemini 3 PRO Preview medium Google 2 5.3 1/3 7.01s
#13 GLM 5 medium Z.ai 2 3.5 0/3 0ms
#15 Gemini 2.5 Flash medium Google 2 5.9 1/3 37.3s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado