غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 4

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#52	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.751	12/22	84.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.751 ردِعمل کا وقت (اوسط) 84.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
کل ٹیسٹس 22 غلط ٹیسٹس 19 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 82.2s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 76.5s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 75.4s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#108	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 68.6s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
کل ٹیسٹس 16 غلط ٹیسٹس 3 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 68.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $1.143 ردِعمل کا وقت (اوسط) 67.5s
#86	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 64.7s
#72	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 64.2s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 64.2s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 62.7s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز