عمومی ذہانت x غلط جواب درجہ بندی

دیکھیں کہ عمومی ذہانت میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

ناکامی کی وجوہات

ہدایات پر عمل نہیں کیا78 غلط جواب59 API خرابی12 ٹائم آؤٹ4

زمرے

ڈومین مخصوص412 اینٹی اے آئی چالیں293 کوڈنگ252 پہیلی حل کرنا201 معلومات عامہ168 مشترکہ68 ہدایات کی پیروی61 عمومی ذہانت59 ڈیٹا پارسنگ اور استخراج41 ٹول کالنگ3

59/59

درجہ	ماڈل	کمپنی	غلط جواب کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.096 ردِعمل کا وقت (اوسط) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.524 ردِعمل کا وقت (اوسط) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $1.207 ردِعمل کا وقت (اوسط) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.151 ردِعمل کا وقت (اوسط) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.469 ردِعمل کا وقت (اوسط) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.231 ردِعمل کا وقت (اوسط) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.044 ردِعمل کا وقت (اوسط) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 615ms

←

1 2 3 4

→

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

عمومی ذہانت: غلط جواب

ماڈلز فلٹر کریں

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز