غلط جواب ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

1585

سب سے زیادہ متاثر ماڈل

Gemini 3.6 Flash 1

زمرے

زمرہ ڈومین مخصوص میں421 زمرہ اینٹی اے آئی چالیں میں293 زمرہ کوڈنگ میں259 زمرہ پہیلی حل کرنا میں204 زمرہ معلومات عامہ میں172 زمرہ مشترکہ میں69 زمرہ عمومی ذہانت میں62 زمرہ ہدایات کی پیروی میں61 زمرہ ڈیٹا پارسنگ اور استخراج میں41 زمرہ ٹول کالنگ میں3

215/215

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.200 ردِعمل کا وقت (اوسط) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.600 ردِعمل کا وقت (اوسط) 99.0s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 11.6s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 100.3s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 106.3s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 9.85s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 5.34s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 5.15s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 9.69s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
کل ٹیسٹس 18 غلط ٹیسٹس 10 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 10.3s
#147	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
کل ٹیسٹس 21 غلط ٹیسٹس 12 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 4.03s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
کل ٹیسٹس 22 غلط ٹیسٹس 13 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 148.7s

غلط جواب ناکامیاں

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز