غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.756 ردِعمل کا وقت (اوسط) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.777 ردِعمل کا وقت (اوسط) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
کل ٹیسٹس 19 غلط ٹیسٹس 13 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 6.73s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.533 ردِعمل کا وقت (اوسط) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $1.143 ردِعمل کا وقت (اوسط) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز