AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں: غلط جواب
اینٹی اے آئی چالیں
غلط جواب
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #78 | Qwen3.6 27B medium | Qwen | 1 | 8.3 | 3/4 | 12.6s |
| #81 | Mercury 2 medium | Inception | 1 | 6.9 | 2/4 | 1.12s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 6.9 | 2/4 | 3.46s |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 8.7 | 3/4 | 3.81s |
| #87 | Gemini 3.1 Flash Lite minimal | 1 | 8.3 | 3/4 | 1.10s | |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.5 | 2/4 | 4.87s |
| #99 | gpt-oss-120b medium | OpenAI | 1 | 6.7 | 2/4 | 10.2s |
| #100 | Grok Build 0.1 none | X AI | 1 | 8.7 | 3/4 | 6.30s |
| #102 | Gemma 4 26B A4B none | 1 | 8.3 | 3/4 | 1.28s | |
| #103 | DeepSeek V4 Pro high | DeepSeek | 1 | 6.4 | 2/4 | 16.5s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 6.9 | 2/4 | 2.68s |
| #119 | Cobuddy medium | Baidu | 1 | 8.7 | 3/4 | 10.00s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 6.5 | 2/4 | 32.8s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 7.9 | 2/4 | 40.3s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 3.2 | 0/4 | 9.35s |