AI BENCHY
Advertise here

AI BENCHY ناکامیاں

اضافی فارمیٹنگ ناکامیاں

دیکھیں کہ کن AI ماڈلز میں اضافی فارمیٹنگ سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

15

کل ناکامیاں

48

سب سے زیادہ متاثر ماڈل

Qwen3.5-27B 1
درجہ ماڈل کمپنی اضافی فارمیٹنگ کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#30 Qwen3.5-27B medium Qwen 1 7.8 13/21 68.4s
#38 Grok 4.3 medium X AI 1 7.6 13/21 47.5s
#43 MiMo-V2.5-Pro medium Xiaomi 3 7.5 12/21 26.1s
#47 Grok Build 0.1 medium X AI 3 7.4 13/21 49.9s
#51 Mimo V2 PRO medium Xiaomi 1 7.4 12/21 22.2s
#52 Claude Sonnet 4.6 medium Anthropic 3 7.4 13/21 17.1s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 2 7.3 12/21 27.1s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 1 7.1 12/21 27.7s
#67 MiniMax M3 medium Minimax 1 7.1 11/21 68.2s
#68 Claude Opus 4.8 none Anthropic 3 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 5 7.0 12/21 25.9s
#77 Claude Sonnet 4.6 none Anthropic 4 6.8 11/21 5.04s
#79 Hunter Alpha medium OpenRouter 1 6.7 8/18 10.3s

اضافی فارمیٹنگ کی تعداد کے لحاظ سے سرفہرست ماڈلز

اضافی فارمیٹنگ کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز