ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#2	Gemini 3.5 Flash high	Google	1	7.6	$1.976	2/3	14.1s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.361 ردِعمل کا وقت (اوسط) 32.7s
#9	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	5.24s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 5.24s
#11	Gemini 3.5 Flash low	Google	1	7.7	$0.433	2/3	3.39s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 3.39s
#23	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	20.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 20.4s
#28	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 186.4s
#29	Step 3.7 Flash medium	Stepfun	1	7.7	$0.515	2/3	48.3s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 48.3s
#44	GPT-5.6 Luna high	OpenAI	1	7.7	$1.017	2/3	79.0s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 79.0s
#59	Qwen3.7 Max none	Qwen	1	7.7	$0.197	2/3	975ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	3.54s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 3.54s
#79	Gemini 3.5 Flash none	Google	1	7.6	$1.079	2/3	10.6s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $1.079 ردِعمل کا وقت (اوسط) 10.6s
#89	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	963ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 963ms
#94	Claude Opus 4.7 none	Anthropic	1	7.7	$0.505	2/3	1.19s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	1	7.7	$0.231	2/3	1.22s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 1.22s
#110	Gemma 4 31B medium	Google	1	7.7	$0.163	2/3	38.5s
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 38.5s

1 2 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز