AI BENCHY زمرہ ناکامیاں
ڈومین مخصوص: غلط جواب
ڈومین مخصوص
غلط جواب
دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #9 | Qwen3.6 Plus Preview medium | Qwen | 3 | 3.0 | 0/3 | 22.1s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 3 | 3.0 | 0/3 | 4.21s | |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 3 | 2.9 | 0/3 | 63.4s |
| #20 | Qwen3.6 Plus medium | Qwen | 3 | 2.9 | 0/3 | 29.6s |
| #36 | GPT-5.3 Chat none | OpenAI | 3 | 3.5 | 0/3 | 13.0s |
| #44 | GPT-5.4 Mini medium | OpenAI | 3 | 4.1 | 0/3 | 65.3s |
| #53 | GLM 5 none | Z.ai | 3 | 3.0 | 0/3 | 2.24s |
| #54 | Mercury 2 medium | Inception | 3 | 2.9 | 0/3 | 6.48s |
| #60 | Gemma 4 26B A4B none | 3 | 3.6 | 0/3 | 2.49s | |
| #61 | Seed-2.0-Lite none | Bytedance Seed | 3 | 3.6 | 0/3 | 1.33s |
| #64 | DeepSeek V3.2 none | DeepSeek | 3 | 3.6 | 0/3 | 1.61s |
| #67 | Qwen3.5-27B none | Qwen | 3 | 3.0 | 0/3 | 540ms |
| #68 | gpt-oss-120b medium | OpenAI | 3 | 2.9 | 0/3 | 50.9s |
| #75 | GLM 5.1 none | Z.ai | 3 | 2.9 | 0/3 | 1.99s |
| #79 | Grok 4.20 Beta none | X AI | 3 | 3.0 | 0/3 | 611ms |