غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Nemotron 3 Nano Omni 30b A3b Reasoning 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 17.1s
#20	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $3.478 ردِعمل کا وقت (اوسط) 17.2s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 18.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 18.7s
#161	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 19.2s
#175	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 19.2s
#3	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $0.742 ردِعمل کا وقت (اوسط) 19.2s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 19.5s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.184 ردِعمل کا وقت (اوسط) 19.6s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
کل ٹیسٹس 21 غلط ٹیسٹس 9 کل لاگت $0.043 ردِعمل کا وقت (اوسط) 20.1s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.454 ردِعمل کا وقت (اوسط) 20.7s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 20.8s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.643 ردِعمل کا وقت (اوسط) 21.2s
#10	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.361 ردِعمل کا وقت (اوسط) 21.5s
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
کل ٹیسٹس 19 غلط ٹیسٹس 13 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 21.6s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز