غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#89	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 2.95s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 2.98s
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
کل ٹیسٹس 21 غلط ٹیسٹس 13 کل لاگت $0.052 ردِعمل کا وقت (اوسط) 2.99s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
کل ٹیسٹس 19 غلط ٹیسٹس 3 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 3.02s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 3.50s
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 3.74s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
کل ٹیسٹس 21 غلط ٹیسٹس 12 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 4.03s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 4.27s
#116	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 4.40s
#59	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 4.52s
#64	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 4.61s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 4.62s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 4.70s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز