غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

LFM2-24B-A2B 9

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 16.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 16.7s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 47.9s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.090 ردِعمل کا وقت (اوسط) 4.76s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.082 ردِعمل کا وقت (اوسط) 32.2s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
کل ٹیسٹس 21 غلط ٹیسٹس 7 کل لاگت $0.018 ردِعمل کا وقت (اوسط) 16.3s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 106.3s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.369 ردِعمل کا وقت (اوسط) 6.01s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 7.82s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 148.7s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
کل ٹیسٹس 22 غلط ٹیسٹس 10 کل لاگت $0.128 ردِعمل کا وقت (اوسط) 9.34s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 103.8s
#99	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
کل ٹیسٹس 19 غلط ٹیسٹس 3 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 3.02s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
کل ٹیسٹس 21 غلط ٹیسٹس 10 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 23.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 25.6s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز