اینٹی اے آئی چالیں x غلط جواب درجہ بندی

دیکھیں کہ اینٹی اے آئی چالیں میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

293

سب سے زیادہ متاثر ماڈل

DeepSeek V4 Pro 2

ناکامی کی وجوہات

غلط جواب293 ہدایات پر عمل نہیں کیا33 اضافی فارمیٹنگ20 API خرابی14 ٹائم آؤٹ4 کوئی جواب نہیں4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

140/140

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#82	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 4.02s
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.397 ردِعمل کا وقت (اوسط) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.045 ردِعمل کا وقت (اوسط) 1.80s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 2.78s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.164 ردِعمل کا وقت (اوسط) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 2.83s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
کل ٹیسٹس 4 غلط ٹیسٹس 4 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 2.67s

1 2 10

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

اینٹی اے آئی چالیں: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز