AI BENCHY श्रेणी अपयशे
सूचनांचे पालन: उत्तर नाही
सूचनांचे पालन
उत्तर नाही
सूचनांचे पालन मध्ये कोणत्या AI मॉडेल्सना उत्तर नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: अपयशांची संख्या ↑.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | उत्तर नाही संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #53 | Gemini 3.1 Flash Lite high | 1 | 7.3 | 1/2 | 23.3s | |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 6.5 | 1/2 | 5.75s |