AI BENCHY زمرہ ناکامیاں
معلومات عامہ: غلط جواب
معلومات عامہ
غلط جواب
دیکھیں کہ معلومات عامہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
133/133
ماڈلز فلٹر کریں
موجودہ تلاش اور فلٹرز سے کوئی ماڈل مطابقت نہیں رکھتا۔
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | کل لاگت | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|---|
| #93 | Gemini 2.5 Flash none | 1 | 3.0 | $0.016 | 0/1 | 1.15s | |
| #94 | Gemini 3.1 Flash Lite minimal | 1 | 3.0 | $0.013 | 0/1 | 724ms | |
| #96 | Gemini 3.1 Flash Lite none | 1 | 3.0 | $0.013 | 0/1 | 733ms | |
| #97 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | $0.005 | 0/1 | 588ms |
| #98 | Gemma 4 31B none | 1 | 3.0 | $0.004 | 0/1 | 1.25s | |
| #99 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 3.0 | $0.027 | 0/1 | 1.83s |
| #100 | Qwen3.6 Max Preview none | Qwen | 1 | 3.0 | $0.075 | 0/1 | 1.97s |
| #101 | GLM 5 none | Z.ai | 1 | 3.0 | $0.027 | 0/1 | 3.62s |
| #102 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | $0.015 | 0/1 | 649ms |
| #103 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | $0.012 | 0/1 | 493ms |
| #104 | Qwen3.5-27B none | Qwen | 1 | 3.0 | $0.015 | 0/1 | 599ms |
| #105 | GLM 5V Turbo none | Z.ai | 1 | 3.0 | $0.052 | 0/1 | 2.23s |
| #106 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 3.0 | $0.016 | 0/1 | 1.11s |
| #108 | Owl Alpha medium | Openrouter | 1 | 3.0 | $0.000 | 0/1 | 2.38s |
| #109 | Mimo V2 PRO none | Xiaomi | 1 | 3.0 | $0.045 | 0/1 | 1.63s |