غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 13

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 2.76s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 2.89s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 36.8s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.55s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.022 ردِعمل کا وقت (اوسط) 1.20s
#166	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 9.12s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 10.8s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 4.62s
#172	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 41.3s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 1.99s
#177	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 5.97s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 12.2s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 68.3s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
کل ٹیسٹس 21 غلط ٹیسٹس 16 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.22s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز