ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#2	Gemini 3.5 Flash high	Google	1	7.6	$1.976	2/3	14.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.361 ردِعمل کا وقت (اوسط) 32.7s
#9	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	5.24s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 5.24s
#11	Gemini 3.5 Flash low	Google	1	7.7	$0.433	2/3	3.39s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 3.39s
#21	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 77.8s
#23	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	20.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 20.4s
#28	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 186.4s
#29	Step 3.7 Flash medium	Stepfun	1	7.7	$0.515	2/3	48.3s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 48.3s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.222 ردِعمل کا وقت (اوسط) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 0ms
#43	Claude Opus 4.6 medium	Anthropic	1	3.0	$3.059	0/3	83.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 83.4s
#44	GPT-5.6 Luna high	OpenAI	1	7.7	$1.017	2/3	79.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 79.0s
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $1.097 ردِعمل کا وقت (اوسط) 158.0s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	$0.437	1/3	17.5s
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 17.5s

1 2 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز