AI BENCHY زمرہ ناکامیاں
ڈومین مخصوص: اضافی فارمیٹنگ
ڈومین مخصوص
اضافی فارمیٹنگ
دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو اضافی فارمیٹنگ پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | اضافی فارمیٹنگ کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 5.3 | 1/3 | 37.9s |
| #69 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.3 | 1/3 | 34.5s |
| #65 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 47.9s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |