AI BENCHY
Advertise here

AI BENCHY ناکامیاں

ہدایات پر عمل نہیں کیا ناکامیاں

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

13

کل ناکامیاں

215

سب سے زیادہ متاثر ماڈل

Mistral Small 4 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#129 MiniMax M2.5 medium Minimax 3 5.3 5/21 65.4s
#12 Gemini 3.1 Flash Lite Preview high Google 1 8.6 13/16 68.1s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#30 Qwen3.5-27B medium Qwen 2 7.8 13/21 68.4s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#161 Qwen3.5-9B medium Qwen 1 4.2 3/21 82.2s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز