AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY अपयशे

सूचनांचे पालन केले नाही अपयशे

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

13

एकूण अपयशे

215

सर्वाधिक प्रभावित मॉडेल

Mistral Small 4 1
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#129 MiniMax M2.5 medium Minimax 3 5.3 5/21 65.4s
#12 Gemini 3.1 Flash Lite Preview high Google 1 8.6 13/16 68.1s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#30 Qwen3.5-27B medium Qwen 2 7.8 13/21 68.4s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#161 Qwen3.5-9B medium Qwen 1 4.2 3/21 82.2s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स