AI BENCHY
Comparar Gráficos
❤️ XCS
Your ad here

#35

Qwen: Qwen3.5-Flash

Qwen · qwen/qwen3.5-flash-02-23::none

Abrir selector de comparación de modelos

Puntaje prom.

3.63

Costo por resultado

0.084

Consistencia

8.32

Costo total

$0.003

Pruebas correctas

3/14

Una prueba cuenta como totalmente superada solo si todas sus ejecuciones pasan.

Pruebas incorrectas

11

Tasa de aciertos por intento: 33.3%

Pruebas inestables

3

Tiempo de respuesta: promedio 3.55s · total 49.72s · máximo 13.73s

Respuesta incorrecta: 7 Error de API: 2 No siguió las instrucciones: 2

Mejores modelos por puntuación

Elige el primer modelo y luego haz clic en un segundo modelo para abrir una página lado a lado.

Desglose por categoría

Categoría Puntaje prom. Consistencia Pruebas correctas
Anti-AI Tricks 2.34 7.76 0/3
Data parsing and extraction 5.38 5.81 1/2
Domain specific 4.00 7.21 1/3
Instructions following 3.50 9.99 0/2
Puzzle Solving 1.34 10.00 0/3
Tool Calling 10.00 10.00 1/1