AI BENCHY श्रेणी अपयशे
Samanya Buddhimatta: सूचनांचे पालन केले नाही
Samanya Buddhimatta
सूचनांचे पालन केले नाही
Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.
अयशस्वी होण्याची कारणे
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन केले नाही संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #50 | Gemini 3.1 Flash Lite Preview low | 1 | 4.0 | 0/1 | 1.54s | |
| #53 | Gemini 3.1 Flash Lite high | 1 | 5.0 | 0/1 | 45.7s | |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 4.5 | 0/1 | 13.5s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.4 | 0/1 | 5.37s |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 4.0 | 0/1 | 741ms | |
| #62 | Step 3.5 Flash medium | Stepfun | 1 | 5.5 | 0/1 | 22.4s |
| #63 | GPT-5.3 Chat none | OpenAI | 1 | 4.6 | 0/1 | 1.99s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.0 | 0/1 | 4.20s |
| #65 | Grok 4.20 medium | X AI | 1 | 3.9 | 0/1 | 24.5s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.1 | 0/1 | 33.3s |
| #70 | GPT-5.4 Nano medium | OpenAI | 1 | 4.5 | 0/1 | 4.15s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 5.1 | 0/1 | 36.7s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 4.1 | 0/1 | 58.3s |
| #76 | Kimi K2.5 medium | Moonshot AI | 1 | 6.5 | 0/1 | 69.7s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.1 | 0/1 | 2.56s |