غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Gemini 3 Flash Preview 1

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 62.7s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 16.2s
#34	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 11.3s
#35	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.234 ردِعمل کا وقت (اوسط) 48.5s
#36	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 51.5s
#37	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.405 ردِعمل کا وقت (اوسط) 43.1s
#38	GLM 5.2 medium	Z.ai	3	7.8	$0.222	15/21	23.3s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.222 ردِعمل کا وقت (اوسط) 23.3s
#39	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.676 ردِعمل کا وقت (اوسط) 7.11s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $2.057 ردِعمل کا وقت (اوسط) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $2.077 ردِعمل کا وقت (اوسط) 12.7s
#42	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
کل ٹیسٹس 21 غلط ٹیسٹس 6 کل لاگت $0.307 ردِعمل کا وقت (اوسط) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $3.059 ردِعمل کا وقت (اوسط) 34.3s
#44	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 18.7s
#45	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.042	13/22	49.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.042 ردِعمل کا وقت (اوسط) 49.7s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز