AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں: ہدایات پر عمل نہیں کیا
اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #85 | Elephant none | Openrouter | 1 | 6.6 | 2/4 | 963ms |
| #29 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s | |
| #95 | Grok 4.1 Fast none | X AI | 1 | 3.2 | 0/4 | 1.07s |
| #54 | Mercury 2 medium | Inception | 1 | 6.9 | 2/4 | 1.12s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.1 | 3/4 | 2.33s | |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 3.6 | 0/4 | 3.31s |
| #36 | GPT-5.3 Chat none | OpenAI | 1 | 6.7 | 2/4 | 3.86s |
| #84 | gpt-oss-120b none | OpenAI | 1 | 6.6 | 2/4 | 6.03s |
| #40 | GPT-5.2 medium | OpenAI | 1 | 6.5 | 2/4 | 7.81s |
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 3.5 | 0/4 | 8.64s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 6.7 | 2/4 | 10.2s |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 7.2 | 2/4 | 10.8s |
| #34 | Kimi K2.6 medium | Moonshot AI | 1 | 7.0 | 2/4 | 11.6s |
| #45 | GPT-5 Mini medium | OpenAI | 1 | 7.1 | 2/4 | 13.9s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 4.7 | 1/4 | 15.0s |