غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 4.40s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 6.20s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 112.5s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.019 ردِعمل کا وقت (اوسط) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 1.75s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#130	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 3.74s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 25.3s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.122 ردِعمل کا وقت (اوسط) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.7s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.114 ردِعمل کا وقت (اوسط) 54.9s
#135	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 3.87s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز