غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1558

سب سے زیادہ متاثر ماڈل

Step 3.5 Flash 4

زمرے

زمرہ ڈومین مخصوص میں412 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں252 زمرہ پہیلی حل کرنا میں201 زمرہ معلومات عامہ میں168 زمرہ مشترکہ میں68 زمرہ ہدایات کی پیروی میں61 زمرہ عمومی ذہانت میں59 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

209/209

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#130	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 174.2s
#97	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 148.7s
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
کل ٹیسٹس 22 غلط ٹیسٹس 18 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 142.6s
#137	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 137.1s
#60	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.478 ردِعمل کا وقت (اوسط) 136.6s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 112.5s
#58	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 110.0s
#99	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 106.3s
#95	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 103.8s
#91	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 100.3s
#77	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 99.0s
#80	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 92.5s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 89.2s
#114	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 84.8s

1 2 14

→

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز