غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
کل ٹیسٹس 19 غلط ٹیسٹس 12 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 28.7s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 29.5s
#177	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 29.9s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 32.2s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.774 ردِعمل کا وقت (اوسط) 32.2s
#46	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 33.5s
#88	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 33.9s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 34.3s
#156	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.042	5/22	36.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 36.8s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $4.137 ردِعمل کا وقت (اوسط) 38.4s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
کل ٹیسٹس 12 غلط ٹیسٹس 6 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 39.0s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
کل ٹیسٹس 21 غلط ٹیسٹس 14 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 39.9s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز