غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Gemini 3 Flash Preview 1

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
کل ٹیسٹس 22 غلط ٹیسٹس 1 کل لاگت $0.742 ردِعمل کا وقت (اوسط) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 15.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.361 ردِعمل کا وقت (اوسط) 21.5s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $1.253 ردِعمل کا وقت (اوسط) 10.1s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.642 ردِعمل کا وقت (اوسط) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 5.55s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
کل ٹیسٹس 19 غلط ٹیسٹس 3 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 3.02s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 11.7s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 40.6s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $4.137 ردِعمل کا وقت (اوسط) 38.4s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.931 ردِعمل کا وقت (اوسط) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.477 ردِعمل کا وقت (اوسط) 7.61s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
کل ٹیسٹس 16 غلط ٹیسٹس 3 کل لاگت $2.310 ردِعمل کا وقت (اوسط) 68.1s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز