غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 4

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.584 ردِعمل کا وقت (اوسط) 9.48s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 9.34s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 9.15s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 9.12s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 9.05s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 8.79s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 8.58s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 8.42s
#12	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 8.20s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.661 ردِعمل کا وقت (اوسط) 8.12s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 7.82s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.604 ردِعمل کا وقت (اوسط) 7.65s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 7.64s
#18	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 7.61s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.352 ردِعمل کا وقت (اوسط) 7.28s

←

1 9 10 11 15

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز