AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں: اضافی فارمیٹنگ
اینٹی اے آئی چالیں
اضافی فارمیٹنگ
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو اضافی فارمیٹنگ پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | اضافی فارمیٹنگ کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #10 | Qwen3.5-27B medium | Qwen | 1 | 8.7 | 3/4 | 19.8s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 8.1 | 3/4 | 15.8s |
| #64 | DeepSeek V3.2 none | DeepSeek | 2 | 3.2 | 0/4 | 7.63s |
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 6.4 | 2/4 | 7.45s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 6.9 | 2/4 | 3.46s |
| #87 | Qwen3 Coder Next none | Qwen | 1 | 3.6 | 0/4 | 3.31s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 6.5 | 2/4 | 2.98s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 2 | 4.8 | 1/4 | 2.94s |