AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں: غلط جواب
اینٹی اے آئی چالیں
غلط جواب
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #157 | Grok 4.1 Fast none | X AI | 3 | 3.2 | 0/4 | 1.07s |
| #160 | LFM2-24B-A2B none | Liquid | 3 | 3.3 | 0/3 | 471ms |
| #32 | Gemini 3.5 Flash minimal | 2 | 6.5 | 2/4 | 892ms | |
| #34 | Qwen3.7 Max none | Qwen | 2 | 6.5 | 2/4 | 1.08s |
| #61 | Gemini 3.1 Flash Lite low | 2 | 7.3 | 2/4 | 1.84s | |
| #67 | MiniMax M3 medium | Minimax | 2 | 5.5 | 1/4 | 14.9s |
| #79 | Hunter Alpha medium | OpenRouter | 2 | 7.3 | 2/4 | 4.75s |
| #85 | Gemma 4 31B none | 2 | 6.5 | 2/4 | 1.85s | |
| #88 | Qwen3.7 Plus none | Qwen | 2 | 6.5 | 2/4 | 1.38s |
| #90 | Gemini 3.1 Flash Lite none | 2 | 7.5 | 2/4 | 1.07s | |
| #91 | GPT-5.5 none | OpenAI | 2 | 6.9 | 2/4 | 1.31s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.5 | 2/4 | 25.5s |
| #136 | Elephant Alpha medium | Openrouter | 2 | 6.6 | 2/4 | 1.19s |
| #140 | Qwen3 Coder Next none | Qwen | 2 | 3.6 | 0/4 | 3.31s |
| #146 | Laguna Xs.2 none | Poolside | 2 | 3.0 | 0/4 | 534ms |