غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Gemini 3 Flash Preview 1

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $0.742 ردِعمل کا وقت (اوسط) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 15.1s
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
کل ٹیسٹس 12 غلط ٹیسٹس 6 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 39.0s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.361 ردِعمل کا وقت (اوسط) 21.5s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $3.478 ردِعمل کا وقت (اوسط) 17.2s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 75.4s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 112.5s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
کل ٹیسٹس 16 غلط ٹیسٹس 3 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 68.1s
#175	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 15.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
کل ٹیسٹس 22 غلط ٹیسٹس 19 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 82.2s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $1.253 ردِعمل کا وقت (اوسط) 10.1s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 40.6s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز