AI BENCHY ناکامیاں
ہدایات پر عمل نہیں کیا ناکامیاں
دیکھیں کہ کن AI ماڈلز میں ہدایات پر عمل نہیں کیا سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 3 | 5.5 | 7/21 | 9.88s |
| #124 | Kimi K2.6 none | Moonshot AI | 3 | 5.5 | 7/21 | 13.3s |
| #125 | GPT-5.4 none | OpenAI | 1 | 5.5 | 7/21 | 1.42s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 5.4 | 7/21 | 1.60s |
| #100 | Grok Build 0.1 none | X AI | 2 | 6.0 | 7/19 | 28.7s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 6.0 | 8/21 | 2.44s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 6.0 | 8/21 | 65.2s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 6.0 | 8/21 | 2.27s |
| #105 | Nemotron 3 Super medium | NVIDIA | 3 | 5.8 | 8/21 | 32.0s |
| #109 | GLM 5V Turbo none | Z.ai | 2 | 5.8 | 8/21 | 2.99s |
| #111 | Owl Alpha medium | Openrouter | 2 | 5.7 | 8/21 | 11.9s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.4 | 9/21 | 1.06s | |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |