AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Específico del dominio: Respuesta incorrecta

Específico del dominio
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

15

Fallos totales

314

Modelo más afectado

Gemini 3.5 Flash 1
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#2 Gemini 3.5 Flash high Google 1 7.6 2/3 14.1s
#3 Gemini 3.5 Flash low Google 1 7.7 2/3 3.39s
#4 Gemini 3.1 Pro Preview medium Google 1 7.7 2/3 32.7s
#7 Gemini 3.5 Flash medium Google 1 7.7 2/3 5.24s
#8 Claude Opus 4.7 none Anthropic 1 7.7 2/3 1.19s
#20 Gemini 3.5 Flash none Google 1 7.6 2/3 10.6s
#22 Step 3.7 Flash medium Stepfun 1 7.7 2/3 48.3s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 1 5.3 1/3 17.5s
#27 Gemma 4 31B medium Google 1 7.7 2/3 38.5s
#30 Qwen3.5-27B medium Qwen 1 5.3 1/3 79.5s
#34 Qwen3.7 Max none Qwen 1 7.7 2/3 975ms
#42 GPT-5.2 medium OpenAI 1 5.9 1/3 77.8s
#47 Grok Build 0.1 medium X AI 1 5.3 1/3 158.0s
#48 Gemini 3 Flash Preview none Google 1 7.7 2/3 963ms
#49 Qwen3.5-Flash medium Qwen 1 5.3 1/3 146.5s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado