پہیلی حل کرنا x غلط جواب درجہ بندی

دیکھیں کہ پہیلی حل کرنا میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

204

سب سے زیادہ متاثر ماڈل

Qwen3.5-Flash 3

ناکامی کی وجوہات

غلط جواب204 ہدایات پر عمل نہیں کیا90 API خرابی12 اضافی فارمیٹنگ8 ٹائم آؤٹ5 کوئی جواب نہیں3

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

145/145

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.535 ردِعمل کا وقت (اوسط) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.145 ردِعمل کا وقت (اوسط) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 10.2s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

پہیلی حل کرنا: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز