AI BENCHY
Advertise here

AI BENCHY ناکامیاں

ہدایات پر عمل نہیں کیا ناکامیاں

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

15

کل ناکامیاں

215

سب سے زیادہ متاثر ماڈل

MiniMax M2.7 5
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#109 GLM 5V Turbo none Z.ai 2 5.8 8/21 2.99s
#111 Owl Alpha medium Openrouter 2 5.7 8/21 11.9s
#113 DeepSeek V4 Pro none DeepSeek 2 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 2 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 2 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 2 5.7 6/18 4.70s
#117 Qwen3.5-35B-A3B none Qwen 2 5.6 7/21 3.37s
#118 Qwen3.6 27B none Qwen 2 5.6 7/21 3.72s
#120 Mimo V2 PRO none Xiaomi 2 5.6 7/21 2.27s
#126 gpt-oss-120b none OpenAI 2 5.4 6/19 21.6s
#131 Qwen3.5-122B-A10B none Qwen 2 5.3 6/21 3.41s
#132 Mistral Small 4 medium Mistral 2 5.3 5/21 9.40s
#134 GLM 5 Turbo none Z.ai 2 5.2 6/21 2.82s
#136 Elephant Alpha medium Openrouter 2 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 2 5.0 6/21 9.34s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز