غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Gemini 3 Flash Preview 1

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 7.61s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.951 ردِعمل کا وقت (اوسط) 22.6s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 62.7s
#38	GLM 5.2 medium	Z.ai	3	7.8	$0.222	15/21	23.3s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.222 ردِعمل کا وقت (اوسط) 23.3s
#42	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 34.3s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#68	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 110.0s
#79	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.079 ردِعمل کا وقت (اوسط) 9.93s
#84	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 33.9s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
کل ٹیسٹس 19 غلط ٹیسٹس 3 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 3.02s
#95	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 103.8s
#100	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 16.3s
#131	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
کل ٹیسٹس 18 غلط ٹیسٹس 4 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 9.75s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز