اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

Seed-2.0-Lite 4

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
کل ٹیسٹس 4 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 4.46s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز