مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.6

بہترین ماڈل

Muse Spark 1.1 5.9

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ69 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ32 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#183	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 18.2s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 35.7s
#185	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/2	0ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 0ms
#186	GPT-5.4 Nano none	OpenAI	3.0	4.8	$0.041	0/2	14.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 14.7s
#187	Grok 4.20 Multi Agent Beta medium	X AI	1.5	4.8	$5.599	0/1	0ms
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 0ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3.8	4.8	$0.067	0/2	73.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.067 ردِعمل کا وقت (اوسط) 73.0s
#189	Trinity Large Preview none	Arcee AI	1.5	4.8	$0.008	0/1	8.91s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 8.91s
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 30.5s
#192	Laguna M.1 medium	Poolside	1.5	4.7	$0.033	0/1	53.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 53.1s
#193	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/2	14.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 14.6s
#194	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 47.4s
#195	Mercury 2 none	Inception	3.0	4.6	$0.030	0/2	2.56s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 2.56s
#196	MiniMax M2.5 medium	Minimax	3.7	4.6	$0.340	0/2	83.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.340 ردِعمل کا وقت (اوسط) 83.2s
#197	Grok 4.20 Beta none	X AI	1.5	4.4	$0.087	0/1	6.48s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 6.48s
#198	Laguna M.1 none	Poolside	1.5	4.4	$0.009	0/1	4.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 4.32s

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز