AI BENCHY श्रेणी अपयशे
Samanya Buddhimatta: सूचनांचे पालन केले नाही
Samanya Buddhimatta
सूचनांचे पालन केले नाही
Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन केले नाही संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #30 | Qwen3.5-27B medium | Qwen | 1 | 6.1 | 0/1 | 101.4s |
| #76 | Kimi K2.5 medium | Moonshot AI | 1 | 6.5 | 0/1 | 69.7s |
| #111 | Owl Alpha medium | Openrouter | 1 | 4.3 | 0/1 | 58.6s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 4.1 | 0/1 | 58.3s |
| #53 | Gemini 3.1 Flash Lite high | 1 | 5.0 | 0/1 | 45.7s | |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 6.1 | 0/1 | 40.1s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 6.5 | 0/1 | 39.5s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 3.9 | 0/1 | 38.7s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 5.1 | 0/1 | 36.7s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.1 | 0/1 | 33.3s |
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 5.1 | 0/1 | 27.1s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 1 | 6.1 | 0/1 | 25.2s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 6.1 | 0/1 | 25.1s |
| #38 | Grok 4.3 medium | X AI | 1 | 5.4 | 0/1 | 24.7s |
| #65 | Grok 4.20 medium | X AI | 1 | 3.9 | 0/1 | 24.5s |