AI BENCHY
موازنہ کریں چارٹس طریقہ کار
❤️ Made by XCS
Your ad here

AI BENCHY زمرہ ناکامیاں

پہیلی حل کرنا
ہدایات پر عمل نہیں کیا

دیکھیں کہ پہیلی حل کرنا میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

20

کل ناکامیاں

24

سب سے زیادہ متاثر ماڈل

Gemini 2.5 Flash 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#38 Gemini 2.5 Flash none Google 1 4.7 1/3 576ms
#36 Mercury 2 medium Inception 2 1.7 0/3 934ms
#49 GLM 4.7 Flash none Z.ai 2 3.7 0/3 1.00s
#42 Qwen3.5-35B-A3B none Qwen 1 1.7 0/3 1.34s
#41 Qwen3.5-27B none Qwen 1 6.3 1/3 1.37s
#44 GPT-5.4 none OpenAI 1 4.0 1/3 1.52s
#55 LFM2-24B-A2B none Liquid 1 3.3 0/3 1.69s
#50 Qwen3 Coder Next medium Qwen 2 10.0 0/3 2.30s
#3 GPT-5.3-Codex medium OpenAI 1 9.3 2/3 5.12s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 5.47s
#37 Qwen3.5-Flash none Qwen 1 1.3 0/3 5.90s
#13 Step 3.5 Flash medium Stepfun 1 4.0 1/3 7.72s
#30 Grok 4.1 Fast medium X AI 1 4.0 1/3 8.08s
#9 GPT-5.4 medium OpenAI 1 7.0 2/3 9.13s
#39 gpt-oss-120b medium OpenAI 2 1.7 0/3 11.8s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/3 12.9s
#32 GPT-5 Mini medium OpenAI 1 4.3 1/3 14.1s
#34 GPT-5 Nano medium OpenAI 1 4.0 1/3 19.8s
#28 Kimi K2.5 medium Moonshot AI 1 4.0 1/3 45.4s
#7 Qwen3.5-27B medium Qwen 1 8.3 2/3 64.6s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اوسط اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز