AI BENCHY श्रेणी अपयशे
Samanya Buddhimatta
चुकीचे उत्तर
Samanya Buddhimatta
चुकीचे उत्तर
Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.
संबंधित अपयश कारणे
| क्रमांक | मॉडेल | कंपनी | चुकीचे उत्तर संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #38 | Gemini 2.5 Flash none | 1 | 5.0 | 0/1 | 615ms | |
| #47 | GPT-4o-mini none | OpenAI | 1 | 3.0 | 0/1 | 909ms |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 1.59s |
| #44 | GPT-5.4 none | OpenAI | 1 | 3.0 | 0/1 | 1.78s |
| #29 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 4.0 | 0/1 | 2.26s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 18.1s |