غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
کل ٹیسٹس 21 غلط ٹیسٹس 16 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
کل ٹیسٹس 19 غلط ٹیسٹس 17 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 728ms
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
کل ٹیسٹس 16 غلط ٹیسٹس 14 کل لاگت $0.001 ردِعمل کا وقت (اوسط) 782ms
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.138 ردِعمل کا وقت (اوسط) 13.2s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.317 ردِعمل کا وقت (اوسط) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 44.7s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز