اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

Seed-2.0-Lite 4

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#211	Laguna Xs.2 none	Poolside	2	3.0	$0.004	0/4	534ms
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 534ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	4.8	$0.000	1/4	584ms
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 584ms
#5	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 2.60s
#8	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 3.39s
#16	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 4.16s
#18	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 1.85s
#21	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 4.11s
#24	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 7.81s
#28	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.643 ردِعمل کا وقت (اوسط) 6.30s
#29	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 13.9s
#30	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 8.60s
#34	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 3.40s
#38	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 2.54s
#39	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 18.0s
#43	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 2.22s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز