AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY अपयशे

सूचनांचे पालन केले नाही अपयशे

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

180

सर्वाधिक प्रभावित मॉडेल

MiniMax M2.7 6
क्रमांक मॉडेल कंपनी सूचनांचे पालन केले नाही संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#74 GLM 4.7 Flash none Z.ai 2 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 2 5.6 5/18 4.33s
#77 GLM 5 Turbo none Z.ai 2 5.5 6/18 2.94s
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s
#82 Grok 4.20 none X AI 2 5.2 5/18 1.11s
#83 Mistral Small 4 none Mistral 2 5.2 5/18 665ms
#93 GLM 4.7 Flash medium Z.ai 2 4.6 4/18 32.3s
#95 Grok 4.1 Fast none X AI 2 4.5 3/18 1.76s
#97 Qwen3.5-9B medium Qwen 2 4.4 3/18 73.6s
#98 LFM2-24B-A2B none Liquid 2 4.1 1/16 811ms
#9 Qwen3.6 Plus Preview medium Qwen 1 8.5 13/17 13.9s
#11 Gemini 3.1 Flash Lite Preview high Google 1 8.4 12/16 68.8s
#13 GLM 5 medium Z.ai 1 8.4 13/18 23.3s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#15 Gemini 2.5 Flash medium Google 1 8.2 13/18 12.1s

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स