غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 13

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
کل ٹیسٹس 22 غلط ٹیسٹس 20 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 1.45s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
کل ٹیسٹس 19 غلط ٹیسٹس 17 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 728ms
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
کل ٹیسٹس 16 غلط ٹیسٹس 14 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 782ms
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
کل ٹیسٹس 22 غلط ٹیسٹس 19 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 82.2s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
کل ٹیسٹس 19 غلط ٹیسٹس 16 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.62s
#161	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.061 ردِعمل کا وقت (اوسط) 5.52s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#169	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 29.9s
#180	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 2.57s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 9.61s
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 829ms
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 142.6s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 2.98s
#199	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 12.9s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز