غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Gemini 3 Flash Preview 1

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $0.742 ردِعمل کا وقت (اوسط) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 15.1s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 11.7s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $1.253 ردِعمل کا وقت (اوسط) 10.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.361 ردِعمل کا وقت (اوسط) 21.5s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 40.6s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 8.20s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $4.137 ردِعمل کا وقت (اوسط) 38.4s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $1.707 ردِعمل کا وقت (اوسط) 76.5s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 17.0s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 7.61s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز