AI BENCHY
Your ad here

AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں: غلط جواب

اینٹی اے آئی چالیں
غلط جواب

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

165

سب سے زیادہ متاثر ماڈل

Qwen3.5-Flash 4
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#59 Qwen3.5-Flash none Qwen 4 3.5 0/4 1.32s
#61 Seed-2.0-Lite none Bytedance Seed 4 3.0 0/4 2.43s
#62 Gemini 2.5 Flash none Google 4 3.0 0/4 582ms
#63 Qwen3.5-35B-A3B none Qwen 4 3.4 0/4 1.43s
#64 DeepSeek V3.2 none DeepSeek 2 3.2 0/4 7.63s
#65 MiMo-V2-Pro none Xiaomi 4 3.5 0/4 1.80s
#66 GPT-5.4 none OpenAI 4 3.2 0/4 1.21s
#72 Hunter Alpha none OpenRouter 4 3.5 0/4 3.81s
#75 GLM 5.1 none Z.ai 4 4.0 0/4 2.11s
#76 Kimi K2.5 none Moonshot AI 4 3.6 0/4 6.24s
#77 GLM 5 Turbo none Z.ai 4 3.0 0/4 2.84s
#78 Trinity Large Preview none Arcee AI 4 3.0 0/4 3.02s
#79 Grok 4.20 Beta none X AI 4 4.0 0/4 597ms
#83 Mistral Small 4 none Mistral 4 3.4 0/4 395ms
#86 GPT-5.4 Mini none OpenAI 4 3.1 0/4 929ms

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز