اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

Seed-2.0-Lite 4

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#44	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 2.98s
#48	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 2.99s
#49	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.041	3/4	28.5s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 28.5s
#54	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 2.52s
#57	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 4.52s
#58	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 3.86s
#59	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 2.36s
#60	GPT-5.4 Mini medium	OpenAI	1	8.6	$0.756	3/4	4.05s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 4.05s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 45.8s
#67	Claude Sonnet 4.6 none	Anthropic	1	4.8	$0.661	1/4	2.94s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 2.94s
#71	Step 3.7 Flash low	Stepfun	1	8.7	$0.454	3/4	4.02s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 4.02s
#72	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 11.6s
#79	Grok 4.20 medium	X AI	1	8.2	$0.777	3/4	3.95s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 3.95s
#81	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 51.4s
#82	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 1.12s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز