AI BENCHY
Advertise here

AI BENCHY زمرہ ناکامیاں

کوڈنگ: ہدایات پر عمل نہیں کیا

کوڈنگ
ہدایات پر عمل نہیں کیا

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

16

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#6 Gemini 3.5 Flash medium Google 1 6.8 1/2 9.91s
#24 Gemini 3.5 Flash minimal Google 1 7.0 1/2 3.39s
#63 Claude Opus 4.6 medium Anthropic 1 7.2 1/2 29.4s
#74 Laguna M.1 medium Poolside 1 4.3 0/1 35.6s
#80 DeepSeek V4 Pro high DeepSeek 1 2.8 0/2 51.8s
#87 Grok 4.1 Fast medium X AI 1 2.3 0/1 23.6s
#96 Nemotron 3 Super medium NVIDIA 1 3.1 0/2 62.4s
#100 Owl Alpha medium Openrouter 1 6.6 1/2 19.1s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#110 Kimi K2.6 none Moonshot AI 1 6.8 1/2 122.8s
#114 DeepSeek V3.2 none DeepSeek 1 3.1 0/2 20.9s
#115 MiMo-V2.5-Pro none Xiaomi 1 5.0 0/2 1.80s
#149 MiMo-V2-Flash none Xiaomi 1 4.9 0/2 2.04s
#151 Qwen3.5-9B medium Qwen 1 2.8 0/2 135.6s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز