AI BENCHY زمرہ ناکامیاں
عمومی ذہانت: ہدایات پر عمل نہیں کیا
عمومی ذہانت
ہدایات پر عمل نہیں کیا
دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | ہدایات پر عمل نہیں کیا کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.0 | 0/1 | 395ms |
| #106 | Grok 4.20 Beta none | X AI | 1 | 5.0 | 0/1 | 541ms |
| #154 | Qwen3.5-9B none | Qwen | 1 | 4.4 | 0/1 | 552ms |
| #155 | Mercury 2 none | Inception | 1 | 4.8 | 0/1 | 628ms |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 4.0 | 0/1 | 741ms | |
| #87 | Gemini 3.1 Flash Lite minimal | 1 | 4.0 | 0/1 | 791ms | |
| #81 | Mercury 2 medium | Inception | 1 | 4.8 | 0/1 | 821ms |
| #137 | Elephant Alpha none | Openrouter | 1 | 4.0 | 0/1 | 854ms |
| #151 | Trinity Large Preview none | Arcee AI | 1 | 4.5 | 0/1 | 873ms |
| #136 | Elephant Alpha medium | Openrouter | 1 | 4.3 | 0/1 | 920ms |
| #118 | Qwen3.6 27B none | Qwen | 1 | 5.2 | 0/1 | 1.07s |
| #157 | Grok 4.1 Fast none | X AI | 1 | 4.4 | 0/1 | 1.08s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.0 | 0/1 | 1.12s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 1 | 6.5 | 0/1 | 1.19s |
| #148 | GPT-5.4 Nano none | OpenAI | 1 | 3.8 | 0/1 | 1.31s |