AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا
اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
متعلقہ ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #43 | MiniMax M2.5 medium | Minimax | 1 | 9.3 | 2/3 | 32.4s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 4.0 | 1/3 | 27.1s |
| #39 | gpt-oss-120b medium | OpenAI | 1 | 7.0 | 2/3 | 19.8s |
| #32 | GPT-5 Mini medium | OpenAI | 1 | 7.0 | 2/3 | 16.5s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 1.3 | 0/3 | 15.3s |
| #27 | GPT-5.2 medium | OpenAI | 1 | 7.0 | 2/3 | 14.3s |
| #19 | GPT-5.3 Chat none | OpenAI | 1 | 7.3 | 2/3 | 4.72s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 2.3 | 0/3 | 4.39s |
| #12 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.0 | 2/3 | 2.53s | |
| #53 | Grok 4.1 Fast none | X AI | 1 | 1.3 | 0/3 | 1.73s |
| #36 | Mercury 2 medium | Inception | 1 | 7.3 | 2/3 | 1.30s |
| #22 | Gemini 3.1 Flash Lite Preview none | 1 | 6.0 | 1/3 | 1.16s |