غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
کل ٹیسٹس 21 غلط ٹیسٹس 17 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
کل ٹیسٹس 19 غلط ٹیسٹس 14 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
کل ٹیسٹس 19 غلط ٹیسٹس 13 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 21.6s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.017 ردِعمل کا وقت (اوسط) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.774 ردِعمل کا وقت (اوسط) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.571 ردِعمل کا وقت (اوسط) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.197 ردِعمل کا وقت (اوسط) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 4.61s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز