AI BENCHY ناکامیاں
غلط جواب ناکامیاں
دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↑.
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 4 | 6.9 | 11/21 | 80.2s |
| #72 | DeepSeek V3.2 medium | DeepSeek | 5 | 7.0 | 11/21 | 68.7s |
| #70 | GPT-5.4 Nano medium | OpenAI | 8 | 7.0 | 11/21 | 12.0s |
| #71 | Step 3.7 Flash high | Stepfun | 6 | 7.0 | 11/21 | 64.5s |
| #68 | Claude Opus 4.8 none | Anthropic | 4 | 7.0 | 12/21 | 3.47s |
| #69 | Claude Opus 4.6 medium | Anthropic | 3 | 7.0 | 12/21 | 25.9s |
| #67 | MiniMax M3 medium | Minimax | 3 | 7.1 | 11/21 | 68.2s |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.1 | 11/21 | 72.6s |
| #65 | Grok 4.20 medium | X AI | 6 | 7.1 | 12/21 | 27.7s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 5 | 7.2 | 12/21 | 20.1s |
| #63 | GPT-5.3 Chat none | OpenAI | 7 | 7.2 | 12/21 | 6.34s |
| #62 | Step 3.5 Flash medium | Stepfun | 4 | 7.2 | 11/20 | 72.5s |
| #61 | Gemini 3.1 Flash Lite low | 9 | 7.2 | 12/21 | 1.89s | |
| #60 | Kimi K2.6 medium | Moonshot AI | 3 | 7.2 | 12/21 | 71.7s |
| #59 | GLM 5V Turbo medium | Z.ai | 7 | 7.2 | 11/21 | 23.1s |