AI BENCHY
Your ad here

Eșecuri AI BENCHY

Eșecuri Nu a urmat instrucțiunile

Vezi ce modele AI se lovesc cel mai des de Nu a urmat instrucțiunile, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↓.

Modele afișate

15

Eșecuri totale

180

Modelul cel mai afectat

Qwen3.5-9B 2
Rang Model Companie Număr de Nu a urmat instrucțiunile Scor Teste corecte Timp de răspuns (mediu)
#73 Mistral Small 4 medium Mistral 3 5.7 5/18 5.64s
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#42 Claude Sonnet 4.6 none Anthropic 1 7.4 11/18 4.98s
#72 Hunter Alpha none OpenRouter 2 5.7 6/18 4.58s
#75 GLM 5.1 none Z.ai 2 5.6 5/18 4.33s
#48 Gemma 4 31B none Google 1 6.9 10/18 4.02s
#63 Qwen3.5-35B-A3B none Qwen 2 6.1 7/18 3.82s
#17 Gemini 3.1 Flash Lite Preview medium Google 1 8.2 13/18 3.74s
#70 Qwen3.5-122B-A10B none Qwen 1 5.7 6/18 3.69s
#74 GLM 4.7 Flash none Z.ai 2 5.6 5/18 3.35s
#59 Qwen3.5-Flash none Qwen 1 6.2 8/18 3.25s
#22 Gemini 3.1 Flash Lite Preview low Google 1 8.1 13/18 3.22s
#58 GLM 5V Turbo none Z.ai 2 6.2 8/18 3.10s
#77 GLM 5 Turbo none Z.ai 2 5.5 6/18 2.94s
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s

Top modele după Număr de Nu a urmat instrucțiunile

Număr de Nu a urmat instrucțiunile vs Scor

Top modele după Timp de răspuns (mediu)