AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY ব্যর্থতা

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

15

মোট ব্যর্থতা

215

সবচেয়ে বেশি প্রভাবিত মডেল

Kimi K2.5 2
র‍্যাঙ্ক মডেল কোম্পানি নির্দেশনা অনুসরণ করা হয়নি সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#114 Qwen3.5 Plus 2026-04-20 none Qwen 2 5.7 7/21 4.39s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 7.5 13/21 3.96s
#153 Qwen3.6 35B A3B none Qwen 2 4.6 4/21 3.73s
#118 Qwen3.6 27B none Qwen 2 5.6 7/21 3.72s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#131 Qwen3.5-122B-A10B none Qwen 2 5.3 6/21 3.41s
#117 Qwen3.5-35B-A3B none Qwen 2 5.6 7/21 3.37s
#44 Gemini 3.1 Flash Lite medium Google 1 7.5 13/21 3.23s
#109 GLM 5V Turbo none Z.ai 2 5.8 8/21 2.99s
#151 Trinity Large Preview none Arcee AI 3 4.6 4/21 2.98s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#134 GLM 5 Turbo none Z.ai 2 5.2 6/21 2.82s
#50 Gemini 3.1 Flash Lite Preview low Google 1 7.4 13/21 2.77s

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল