AI BENCHY
Advertise here

Eșecuri AI BENCHY

Eșecuri Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Scor ↑.

Modele afișate

15

Eșecuri totale

1204

Modelul cel mai afectat

Granite 4.1 8B 13
Rang Model Companie Număr de Răspuns greșit Scor Teste corecte Timp de răspuns (mediu)
#163 Granite 4.1 8B none IBM Granite 13 4.0 2/21 728ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 9 4.1 2/19 728ms
#161 Qwen3.5-9B medium Qwen 2 4.2 3/21 82.2s
#160 LFM2-24B-A2B none Liquid 9 4.2 2/16 782ms
#159 Ling-2.6-1T none Inclusionai 12 4.3 3/21 7.72s
#158 GLM 4.7 Flash medium Z.ai 9 4.4 4/21 35.1s
#157 Grok 4.1 Fast none X AI 13 4.4 3/19 1.62s
#156 Hy3 preview none Tencent 8 4.4 4/21 12.9s
#155 Mercury 2 none Inception 16 4.5 4/21 653ms
#154 Qwen3.5-9B none Qwen 14 4.6 4/21 1.89s
#153 Qwen3.6 35B A3B none Qwen 13 4.6 4/21 3.73s
#152 MiMo-V2-Flash none Xiaomi 13 4.6 4/21 2.76s
#151 Trinity Large Preview none Arcee AI 12 4.6 4/21 2.98s
#150 Qwen3 Coder Next medium Qwen 13 4.6 4/21 8.58s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 7 4.6 4/19 17.1s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)