غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Gemini 3 Flash Preview 1

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#133	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 9.05s
#135	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.048 ردِعمل کا وقت (اوسط) 56.6s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $0.971 ردِعمل کا وقت (اوسط) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.316 ردِعمل کا وقت (اوسط) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.234 ردِعمل کا وقت (اوسط) 11.7s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $4.137 ردِعمل کا وقت (اوسط) 38.4s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.920 ردِعمل کا وقت (اوسط) 17.0s
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 25.0s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 12.5s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 64.2s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 16.2s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 12.7s
#49	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.323 ردِعمل کا وقت (اوسط) 23.0s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز