اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

GPT-5.6 Sol 1

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#3	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 2.60s
#5	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 3.39s
#13	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 4.16s
#15	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 1.85s
#18	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 4.11s
#25	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.643 ردِعمل کا وقت (اوسط) 6.30s
#30	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 3.40s
#34	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 2.54s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 18.0s
#39	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 2.22s
#44	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 2.99s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 28.5s
#50	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 2.52s
#53	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 4.52s
#55	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
کل ٹیسٹس 4 غلط ٹیسٹس 1 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 2.36s

1 2 10

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز