AI BENCHY زمرہ ناکامیاں
اینٹی اے آئی چالیں
غلط جواب
اینٹی اے آئی چالیں
غلط جواب
دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
متعلقہ ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #51 | Mercury 2 none | Inception | 3 | 10.0 | 0/3 | 466ms |
| #55 | LFM2-24B-A2B none | Liquid | 3 | 10.0 | 0/3 | 471ms |
| #38 | Gemini 2.5 Flash none | 3 | 10.0 | 0/3 | 668ms | |
| #41 | Qwen3.5-27B none | Qwen | 2 | 4.0 | 1/3 | 796ms |
| #40 | Qwen3.5-122B-A10B none | Qwen | 2 | 4.0 | 1/3 | 927ms |
| #22 | Gemini 3.1 Flash Lite Preview none | 1 | 6.0 | 1/3 | 1.16s | |
| #54 | MiMo-V2-Flash none | Xiaomi | 3 | 10.0 | 0/3 | 1.36s |
| #44 | GPT-5.4 none | OpenAI | 3 | 10.0 | 0/3 | 1.41s |
| #20 | Gemini 3 Flash Preview none | 1 | 7.0 | 2/3 | 1.59s | |
| #37 | Qwen3.5-Flash none | Qwen | 3 | 2.3 | 0/3 | 1.62s |
| #53 | Grok 4.1 Fast none | X AI | 2 | 1.3 | 0/3 | 1.73s |
| #42 | Qwen3.5-35B-A3B none | Qwen | 3 | 10.0 | 0/3 | 1.76s |
| #47 | GPT-4o-mini none | OpenAI | 2 | 4.0 | 1/3 | 1.83s |
| #17 | Gemini 3.1 Flash Lite Preview low | 1 | 7.0 | 2/3 | 2.18s | |
| #29 | Qwen3.5 Plus 2026-02-15 none | Qwen | 2 | 4.0 | 1/3 | 2.74s |
| #31 | GLM 5 none | Z.ai | 2 | 4.0 | 1/3 | 3.39s |
| #45 | Trinity Large Preview none | Arcee AI | 3 | 10.0 | 0/3 | 3.59s |
| #48 | Qwen3 Coder Next none | Qwen | 1 | 2.3 | 0/3 | 4.39s |
| #49 | GLM 4.7 Flash none | Z.ai | 3 | 10.0 | 0/3 | 6.59s |
| #16 | Gemini 2.5 Flash medium | 1 | 7.3 | 2/3 | 6.98s | |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 10.0 | 0/3 | 8.79s |
| #46 | Kimi K2.5 none | Moonshot AI | 3 | 2.7 | 0/3 | 11.4s |
| #50 | Qwen3 Coder Next medium | Qwen | 2 | 1.3 | 0/3 | 15.3s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 4.0 | 1/3 | 27.1s |
| #18 | DeepSeek V3.2 medium | DeepSeek | 1 | 7.0 | 2/3 | 33.4s |
| #34 | GPT-5 Nano medium | OpenAI | 1 | 7.0 | 2/3 | 37.7s |