AI BENCHY
Advertise here

AI BENCHY ناکامیاں

غلط جواب ناکامیاں

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

13

کل ناکامیاں

1204

سب سے زیادہ متاثر ماڈل

Mistral Small 4 15
درجہ ماڈل کمپنی غلط جواب کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#103 DeepSeek V4 Pro high DeepSeek 4 6.0 8/21 65.2s
#129 MiniMax M2.5 medium Minimax 7 5.3 5/21 65.4s
#12 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#67 MiniMax M3 medium Minimax 3 7.1 11/21 68.2s
#30 Qwen3.5-27B medium Qwen 4 7.8 13/21 68.4s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#60 Kimi K2.6 medium Moonshot AI 3 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#161 Qwen3.5-9B medium Qwen 2 4.2 3/21 82.2s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز