AI BENCHY
Advertise here

AI BENCHY ناکامیاں

ہدایات پر عمل نہیں کیا ناکامیاں

دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

215

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 4
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#63 GPT-5.3 Chat none OpenAI 2 7.2 12/21 6.34s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 2 7.1 12/21 27.7s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#30 Qwen3.5-27B medium Qwen 2 7.8 13/21 68.4s
#31 DeepSeek V4 Flash high DeepSeek 2 7.7 13/21 45.8s
#38 Grok 4.3 medium X AI 2 7.6 13/21 47.5s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 7.5 13/21 3.96s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#44 Gemini 3.1 Flash Lite medium Google 1 7.5 13/21 3.23s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#50 Gemini 3.1 Flash Lite Preview low Google 1 7.4 13/21 2.77s
#19 Seed-2.0-Lite medium Bytedance Seed 2 8.2 14/21 47.1s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز