AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں: ہدایات پر عمل نہیں کیا
اینٹی اے آئی چالیں
ہدایات پر عمل نہیں کیا
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #156 | Hy3 preview none | Tencent | 2 | 4.8 | 1/4 | 11.1s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.7 | 3/4 | 9.65s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 1 | 9.1 | 3/4 | 2.33s | |
| #42 | GPT-5.2 medium | OpenAI | 1 | 6.5 | 2/4 | 7.81s |
| #44 | Gemini 3.1 Flash Lite medium | 1 | 9.1 | 3/4 | 2.39s | |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 7.1 | 2/4 | 13.9s |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 7.5 | 2/4 | 1.04s | |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.2 | 2/4 | 10.8s |
| #60 | Kimi K2.6 medium | Moonshot AI | 1 | 7.0 | 2/4 | 11.6s |
| #63 | GPT-5.3 Chat none | OpenAI | 1 | 6.7 | 2/4 | 3.86s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.5 | 1/4 | 14.9s |
| #81 | Mercury 2 medium | Inception | 1 | 6.9 | 2/4 | 1.12s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 9.2 | 3/4 | 43.3s |
| #99 | gpt-oss-120b medium | OpenAI | 1 | 6.7 | 2/4 | 10.2s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 3.6 | 0/4 | 1.63s |