AI BENCHY زمرہ ناکامیاں
ڈومین مخصوص: غلط جواب
ڈومین مخصوص
غلط جواب
دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #7 | Gemini 3.5 Flash medium | 1 | 7.7 | 2/3 | 5.24s | |
| #8 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #20 | Gemini 3.5 Flash none | 1 | 7.6 | 2/3 | 10.6s | |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 7.7 | 2/3 | 48.3s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 5.3 | 1/3 | 17.5s |
| #27 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #30 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #34 | Qwen3.7 Max none | Qwen | 1 | 7.7 | 2/3 | 975ms |
| #42 | GPT-5.2 medium | OpenAI | 1 | 5.9 | 1/3 | 77.8s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #48 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 5.3 | 1/3 | 8.82s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #55 | GLM 5.1 medium | Z.ai | 1 | 5.3 | 1/3 | 29.8s |