AI BENCHY زمرہ ناکامیاں
معلومات عامہ: غلط جواب
معلومات عامہ
غلط جواب
دیکھیں کہ معلومات عامہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #73 | Gemini 3.1 Flash Lite none | 1 | 3.0 | 0/1 | 733ms | |
| #76 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 3.0 | 0/1 | 1.11s |
| #77 | Grok 4.1 Fast medium | X AI | 1 | 3.0 | 0/1 | 25.5s |
| #78 | GLM 5 none | Z.ai | 1 | 3.0 | 0/1 | 3.62s |
| #79 | MiMo-V2-Omni none | Xiaomi | 1 | 3.0 | 0/1 | 1.30s |
| #80 | Mercury 2 medium | Inception | 1 | 3.0 | 0/1 | 2.58s |
| #81 | Gemini 2.5 Flash none | 1 | 3.0 | 0/1 | 1.15s | |
| #82 | Gemma 4 26B A4B none | 1 | 3.0 | 0/1 | 778ms | |
| #83 | GPT-5 Nano medium | OpenAI | 1 | 3.0 | 0/1 | 20.1s |
| #84 | DeepSeek V4 Pro none | DeepSeek | 1 | 3.0 | 0/1 | 15.6s |
| #85 | Nemotron 3 Super medium | NVIDIA | 1 | 3.0 | 0/1 | 55.3s |
| #86 | Seed-2.0-Lite none | Bytedance Seed | 1 | 3.0 | 0/1 | 1.96s |
| #87 | GLM 5V Turbo none | Z.ai | 1 | 3.0 | 0/1 | 2.23s |
| #88 | Owl Alpha medium | Openrouter | 1 | 3.0 | 0/1 | 2.38s |
| #89 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | 0/1 | 588ms |