AI BENCHY زمرہ ناکامیاں
ڈومین مخصوص: غلط جواب
ڈومین مخصوص
غلط جواب
دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #2 | Gemini 3.5 Flash high | 1 | 7.6 | 2/3 | 14.1s | |
| #3 | Gemini 3.5 Flash low | 1 | 7.7 | 2/3 | 3.39s | |
| #4 | Gemini 3.1 Pro Preview medium | 1 | 7.7 | 2/3 | 32.7s | |
| #7 | Gemini 3.5 Flash medium | 1 | 7.7 | 2/3 | 5.24s | |
| #8 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #20 | Gemini 3.5 Flash none | 1 | 7.6 | 2/3 | 10.6s | |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 7.7 | 2/3 | 48.3s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 5.3 | 1/3 | 17.5s |
| #27 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #30 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #34 | Qwen3.7 Max none | Qwen | 1 | 7.7 | 2/3 | 975ms |
| #42 | GPT-5.2 medium | OpenAI | 1 | 5.9 | 1/3 | 77.8s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #48 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |