AI BENCHY ناکامیاں
ہدایات پر عمل نہیں کیا ناکامیاں
دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.8 | 11/21 | 5.04s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 6.8 | 10/21 | 59.7s |
| #79 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #81 | Mercury 2 medium | Inception | 3 | 6.6 | 10/21 | 2.24s |
| #83 | Step 3.5 Flash none | Stepfun | 1 | 6.6 | 6/12 | 39.0s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #85 | Gemma 4 31B none | 1 | 6.5 | 10/21 | 4.05s | |
| #86 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #87 | Gemini 3.1 Flash Lite minimal | 3 | 6.4 | 10/21 | 1.33s | |
| #88 | Qwen3.7 Plus none | Qwen | 1 | 6.4 | 10/21 | 2.85s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.4 | 9/21 | 1.06s | |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |