AI BENCHY अपयशे
अवैध टूल कॉल अपयशे
कोणत्या AI मॉडेल्सना अवैध टूल कॉल सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.
| क्रमांक | मॉडेल | कंपनी | अवैध टूल कॉल संख्या | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #154 | Qwen3.5-9B none | Qwen | 1 | 4.6 | 4/21 | 1.89s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 5.4 | 7/21 | 1.60s |
| #32 | Gemini 3.5 Flash minimal | 1 | 7.7 | 14/21 | 1.57s | |
| #136 | Elephant Alpha medium | Openrouter | 1 | 5.1 | 6/21 | 1.27s |
| #137 | Elephant Alpha none | Openrouter | 1 | 5.1 | 5/21 | 1.22s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 5.8 | 6/18 | 1.19s |
| #127 | Grok 4.20 none | X AI | 1 | 5.4 | 6/18 | 1.11s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | 2/21 | 728ms |