اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

Seed-2.0-Lite 4

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 844ms

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز