غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Granite 4.1 8B 13

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 9.85s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 15.2s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.069 ردِعمل کا وقت (اوسط) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
کل ٹیسٹس 19 غلط ٹیسٹس 10 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 14.7s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 41.2s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
کل ٹیسٹس 21 غلط ٹیسٹس 11 کل لاگت $0.015 ردِعمل کا وقت (اوسط) 24.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.387 ردِعمل کا وقت (اوسط) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.482 ردِعمل کا وقت (اوسط) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.078 ردِعمل کا وقت (اوسط) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
کل ٹیسٹس 22 غلط ٹیسٹس 11 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 92.5s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز