AI BENCHY
Advertise here

AI BENCHY ناکامیاں

ہدایات پر عمل نہیں کیا ناکامیاں

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

215

سب سے زیادہ متاثر ماڈل

Mistral Small 4 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#141 Nemotron 3 Super none NVIDIA 2 4.9 5/21 5.30s
#102 Gemma 4 26B A4B none Google 2 6.0 8/21 5.91s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#24 GPT-5.2 Chat none OpenAI 1 7.9 14/21 7.13s
#159 Ling-2.6-1T none Inclusionai 2 4.3 3/21 7.72s
#150 Qwen3 Coder Next medium Qwen 3 4.6 4/21 8.58s
#140 Qwen3 Coder Next none Qwen 1 4.9 5/21 8.62s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s
#132 Mistral Small 4 medium Mistral 2 5.3 5/21 9.40s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#13 Grok 4.20 Beta medium X AI 1 8.5 14/18 9.75s
#121 Owl Alpha none Openrouter 3 5.5 7/21 9.88s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز