AI BENCHY
Advertise here

AI BENCHY زمرہ ناکامیاں

ہدایات کی پیروی: غلط جواب

ہدایات کی پیروی
غلط جواب

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

8

کل ناکامیاں

53

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#154 Qwen3.5-9B none Qwen 1 6.5 1/2 514ms
#155 Mercury 2 none Inception 1 6.5 1/2 551ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#158 GLM 4.7 Flash medium Z.ai 1 6.2 1/2 2.97s
#159 Ling-2.6-1T none Inclusionai 1 6.4 1/2 5.36s
#160 LFM2-24B-A2B none Liquid 1 6.3 1/2 752ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز