AI BENCHY श्रेणी अपयशे
कोडिंग: अतिरिक्त फॉरमॅटिंग
कोडिंग
अतिरिक्त फॉरमॅटिंग
कोडिंग मध्ये कोणत्या AI मॉडेल्सना अतिरिक्त फॉरमॅटिंग येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | अतिरिक्त फॉरमॅटिंग संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #93 | MiMo-V2-Omni none | Xiaomi | 1 | 5.1 | 0/2 | 2.75s |
| #69 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.8 | 1/2 | 6.73s |
| #46 | Claude Sonnet 4.6 medium | Anthropic | 1 | 6.9 | 1/2 | 33.9s |
| #106 | Owl Alpha none | Openrouter | 1 | 7.0 | 1/2 | 39.7s |
| #31 | Grok 4.3 medium | X AI | 1 | 7.4 | 1/2 | 55.3s |
| #45 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 0/2 | 67.4s |
| #40 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.0 | 1/2 | 81.7s |