AI BENCHY
Advertise here

AI BENCHY अपयशे

सूचनांचे पालन केले नाही अपयशे

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: अपयशांची संख्या ↑.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

215

सर्वाधिक प्रभावित मॉडेल

Gemini 3.5 Flash 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#50 Gemini 3.1 Flash Lite Preview low Google 1 7.4 13/21 2.77s
#51 Mimo V2 PRO medium Xiaomi 1 7.4 12/21 22.2s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स