AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا
اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
متعلقہ ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #22 | Gemini 3.1 Flash Lite Preview none | 1 | 6.0 | 1/3 | 1.16s | |
| #36 | Mercury 2 medium | Inception | 1 | 7.3 | 2/3 | 1.30s |
| #53 | Grok 4.1 Fast none | X AI | 1 | 1.3 | 0/3 | 1.73s |
| #12 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.0 | 2/3 | 2.53s | |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 2.3 | 0/3 | 4.39s |
| #19 | GPT-5.3 Chat none | OpenAI | 1 | 7.3 | 2/3 | 4.72s |
| #27 | GPT-5.2 medium | OpenAI | 1 | 7.0 | 2/3 | 14.3s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 1.3 | 0/3 | 15.3s |
| #32 | GPT-5 Mini medium | OpenAI | 1 | 7.0 | 2/3 | 16.5s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 7.0 | 2/3 | 19.8s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 4.0 | 1/3 | 27.1s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 9.3 | 2/3 | 32.4s |