AI BENCHY श्रेणी अपयशे
टूल कॉलिंग: सूचनांचे पालन केले नाही
टूल कॉलिंग
सूचनांचे पालन केले नाही
टूल कॉलिंग मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: अपयशांची संख्या ↑.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन केले नाही संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #13 | Grok 4.20 Beta medium | X AI | 1 | 3.0 | 0/1 | 12.4s |
| #45 | GPT-5.4 Mini medium | OpenAI | 1 | 4.7 | 0/1 | 9.62s |
| #65 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 13.7s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 12.0s |
| #141 | Nemotron 3 Super none | NVIDIA | 1 | 4.7 | 0/1 | 16.0s |
| #144 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | 0/1 | 2.32s |