AI BENCHY زمرہ ناکامیاں
معلومات عامہ: غلط جواب
معلومات عامہ
غلط جواب
دیکھیں کہ معلومات عامہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #40 | Gemini 3.1 Flash Lite Preview none | 1 | 3.0 | 0/1 | 814ms | |
| #41 | GPT-5.2 Chat none | OpenAI | 1 | 3.0 | 0/1 | 6.89s |
| #42 | Kimi K2.6 medium | Moonshot AI | 1 | 3.0 | 0/1 | 130.3s |
| #43 | Step 3.5 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 108.4s |
| #44 | Gemini 3.1 Flash Lite low | 1 | 3.0 | 0/1 | 1.46s | |
| #45 | Qwen3.5-Flash medium | Qwen | 1 | 3.0 | 0/1 | 49.0s |
| #46 | GPT-5.3 Chat none | OpenAI | 1 | 3.0 | 0/1 | 4.38s |
| #47 | GLM 5.1 medium | Z.ai | 1 | 3.0 | 0/1 | 29.4s |
| #48 | DeepSeek V4 Flash high | DeepSeek | 1 | 3.0 | 0/1 | 54.5s |
| #49 | GLM 5V Turbo medium | Z.ai | 1 | 3.0 | 0/1 | 41.0s |
| #50 | Qwen3.6 Flash medium | Qwen | 1 | 3.0 | 0/1 | 122.9s |
| #52 | Claude Opus 4.6 medium | Anthropic | 1 | 3.0 | 0/1 | 63.2s |
| #53 | GPT-5.4 Nano medium | OpenAI | 1 | 3.0 | 0/1 | 4.81s |
| #54 | Qwen3.6 Max Preview none | Qwen | 1 | 3.0 | 0/1 | 1.97s |
| #55 | MiMo-V2-Flash medium | Xiaomi | 1 | 3.0 | 0/1 | 1.96s |