AI BENCHY
Advertise here

AI BENCHY زمرہ ناکامیاں

ہدایات کی پیروی: ہدایات پر عمل نہیں کیا

ہدایات کی پیروی
ہدایات پر عمل نہیں کیا

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

11

کل ناکامیاں

11

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#129 MiniMax M2.5 medium Minimax 1 7.5 1/2 621ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#151 Trinity Large Preview none Arcee AI 1 3.5 0/2 822ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 1.37s
#86 Grok 4.1 Fast medium X AI 1 6.5 1/2 4.63s
#62 Step 3.5 Flash medium Stepfun 1 8.3 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 1 8.3 1/2 4.99s
#105 Nemotron 3 Super medium NVIDIA 1 7.3 1/2 6.97s
#130 MiniMax M2.7 medium Minimax 1 3.8 0/2 12.8s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز