AI BENCHY श्रेणी अपयशे
Samanya Buddhimatta
चुकीचे उत्तर
Samanya Buddhimatta
चुकीचे उत्तर
Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.
संबंधित अपयश कारणे
| क्रमांक | मॉडेल | कंपनी | चुकीचे उत्तर संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 18.1s |
| #29 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 4.0 | 0/1 | 2.26s |
| #44 | GPT-5.4 none | OpenAI | 1 | 3.0 | 0/1 | 1.78s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 1.59s |
| #47 | GPT-4o-mini none | OpenAI | 1 | 3.0 | 0/1 | 909ms |
| #38 | Gemini 2.5 Flash none | 1 | 5.0 | 0/1 | 615ms |