ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

421

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 3

ناکامی کی وجوہات

غلط جواب421 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص421 اینٹی اے آئی چالیں293 کوڈنگ259 پہیلی حل کرنا204 معلومات عامہ172 مشترکہ69 عمومی ذہانت62 ہدایات کی پیروی61 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

202/202

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.584 ردِعمل کا وقت (اوسط) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 8.05s

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز