غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 2.65s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.085 ردِعمل کا وقت (اوسط) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 58.1s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.145 ردِعمل کا وقت (اوسط) 2.25s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 100.3s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 25.6s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s
#99	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
کل ٹیسٹس 19 غلط ٹیسٹس 3 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 3.02s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 103.8s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 9.34s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 148.7s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 7.82s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.369 ردِعمل کا وقت (اوسط) 6.01s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 106.3s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 16.3s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز