AI BENCHY
Your ad here

AI BENCHY زمرہ ناکامیاں

اینٹی اے آئی چالیں: غلط جواب

اینٹی اے آئی چالیں
غلط جواب

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

15

کل ناکامیاں

165

سب سے زیادہ متاثر ماڈل

Qwen3.5-Flash 4
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#91 Mercury 2 none Inception 4 3.0 0/4 483ms
#94 MiMo-V2-Flash none Xiaomi 4 3.2 0/4 1.19s
#96 GPT-5.4 Nano none OpenAI 4 3.5 0/4 1.18s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 3 4.8 1/4 1.91s
#53 GLM 5 none Z.ai 3 4.8 1/4 2.37s
#55 MiMo-V2-Omni none Xiaomi 3 4.8 1/4 1.10s
#58 GLM 5V Turbo none Z.ai 3 4.8 1/4 3.13s
#67 Qwen3.5-27B none Qwen 3 4.8 1/4 788ms
#69 Kimi K2.6 none Moonshot AI 3 4.6 1/4 1.39s
#70 Qwen3.5-122B-A10B none Qwen 3 4.8 1/4 1.59s
#73 Mistral Small 4 medium Mistral 3 5.6 1/4 2.67s
#74 GLM 4.7 Flash none Z.ai 3 5.2 1/4 5.51s
#82 Grok 4.20 none X AI 3 4.8 1/4 501ms
#88 Nemotron 3 Super none NVIDIA 3 4.8 1/4 7.43s
#89 GPT-4o-mini none OpenAI 3 4.8 1/4 1.34s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز