AI BENCHY
Advertise here

AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں: ہدایات پر عمل نہیں کیا

اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

15

کل ناکامیاں

30

سب سے زیادہ متاثر ماڈل

Hy3 preview 2
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#156 Hy3 preview none Tencent 2 4.8 1/4 11.1s
#22 Step 3.7 Flash medium Stepfun 1 8.7 3/4 9.65s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#42 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#44 Gemini 3.1 Flash Lite medium Google 1 9.1 3/4 2.39s
#54 GPT-5 Mini medium OpenAI 1 7.1 2/4 13.9s
#58 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#59 GLM 5V Turbo medium Z.ai 1 7.2 2/4 10.8s
#60 Kimi K2.6 medium Moonshot AI 1 7.0 2/4 11.6s
#63 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#67 MiniMax M3 medium Minimax 1 5.5 1/4 14.9s
#81 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#96 Ring-2.6-1T none Inclusionai 1 9.2 3/4 43.3s
#99 gpt-oss-120b medium OpenAI 1 6.7 2/4 10.2s
#101 Mimo V2 Omni none Xiaomi 1 3.6 0/4 1.63s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز