AI BENCHY श्रेणी अपयशे
सामान्य ज्ञान: चुकीचे उत्तर
सामान्य ज्ञान
चुकीचे उत्तर
सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: एकूण खर्च ↑.
अयशस्वी होण्याची कारणे
133/133
मॉडेल फिल्टर करा
सध्याच्या शोध आणि फिल्टर्सशी जुळणारी कोणतीही मॉडेल्स नाहीत.
| क्रमांक | मॉडेल | कंपनी | चुकीचे उत्तर संख्या | श्रेणी स्कोअर | एकूण खर्च | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|---|
| #108 | Owl Alpha medium | Openrouter | 1 | 3.0 | $0.000 | 0/1 | 2.38s |
| #110 | Owl Alpha none | Openrouter | 1 | 3.0 | $0.000 | 0/1 | 2.50s |
| #131 | North Mini Code none | Cohere | 1 | 3.0 | $0.000 | 0/1 | 37.4s |
| #140 | Cobuddy medium | Baidu | 1 | 3.0 | $0.000 | 0/1 | 37.0s |
| #143 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | $0.001 | 0/1 | 1.06s |
| #158 | Hy3 preview none | Tencent | 1 | 3.0 | $0.003 | 0/1 | 2.71s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | $0.003 | 0/1 | 306ms |
| #98 | Gemma 4 31B none | 1 | 3.0 | $0.004 | 0/1 | 1.25s | |
| #121 | Gemma 4 26B A4B none | 1 | 3.0 | $0.004 | 0/1 | 778ms | |
| #141 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | $0.004 | 0/1 | 692ms |
| #97 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | $0.005 | 0/1 | 588ms |
| #135 | Qwen3.5-9B none | Qwen | 1 | 3.0 | $0.006 | 0/1 | 2.32s |
| #139 | GPT-4o-mini none | OpenAI | 1 | 3.0 | $0.006 | 0/1 | 794ms |
| #142 | Nemotron 3 Super none | NVIDIA | 1 | 3.0 | $0.007 | 0/1 | 8.94s |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 3.0 | $0.007 | 0/1 | 3.89s |