اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

GPT-5.6 Sol 1

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#3	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 2.60s
#5	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 3.39s
#13	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 4.16s
#15	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 1.85s
#18	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 4.11s
#21	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 7.81s
#25	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.643 ردِعمل کا وقت (اوسط) 6.30s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 13.9s
#27	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 8.60s
#30	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 3.40s
#34	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 2.54s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 18.0s
#39	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 2.22s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
کل ٹیسٹس 4 غلط ٹیسٹس 2 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 2.98s
#44	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 2.99s

1 2 10

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز