غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 13

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.467 ردِعمل کا وقت (اوسط) 24.0s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 2.16s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 64.7s
#91	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.544 ردِعمل کا وقت (اوسط) 2.36s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 25.6s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 68.7s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 112.5s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
کل ٹیسٹس 12 غلط ٹیسٹس 6 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 39.0s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 56.6s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.237 ردِعمل کا وقت (اوسط) 27.6s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#51	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.286 ردِعمل کا وقت (اوسط) 75.0s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.740 ردِعمل کا وقت (اوسط) 84.2s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز