ڈومین مخصوص x غلط جواب درجہ بندی

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

412

سب سے زیادہ متاثر ماڈل

Claude Sonnet 4.6 1

ناکامی کی وجوہات

غلط جواب412 ٹائم آؤٹ43 اضافی فارمیٹنگ17 کوئی جواب نہیں8 API خرابی7 ہدایات پر عمل نہیں کیا1

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

198/198

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 0ms
#42	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 0ms
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 287ms
#201	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 357ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 364ms
#165	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 367ms
#205	Laguna Xs.2 none	Poolside	2	5.3	$0.004	1/3	371ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 371ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 464ms
#142	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.247 ردِعمل کا وقت (اوسط) 465ms
#127	Qwen3.5-35B-A3B none	Qwen	1	7.7	$0.106	2/3	485ms
کل ٹیسٹس 3 غلط ٹیسٹس 1 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 485ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 489ms
#118	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 495ms
#189	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 534ms
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 540ms
#200	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	564ms
کل ٹیسٹس 3 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 564ms

1 2 14

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

ڈومین مخصوص: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز