مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.6

بہترین ماڈل

Gemini 3 PRO Preview 1.5

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ69 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ32 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/2	28.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 28.9s
#175	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/2	194.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 194.0s
#180	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/2	6.32s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.010 ردِعمل کا وقت (اوسط) 6.32s
#182	GLM 4.7 Flash none	Z.ai	3.0	4.9	$0.016	0/2	50.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 50.2s
#183	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 18.2s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.002 ردِعمل کا وقت (اوسط) 35.7s
#185	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/2	0ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.026 ردِعمل کا وقت (اوسط) 0ms
#186	GPT-5.4 Nano none	OpenAI	3.0	4.8	$0.041	0/2	14.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.041 ردِعمل کا وقت (اوسط) 14.7s
#193	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/2	14.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.032 ردِعمل کا وقت (اوسط) 14.6s
#195	Mercury 2 none	Inception	3.0	4.6	$0.030	0/2	2.56s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.030 ردِعمل کا وقت (اوسط) 2.56s
#207	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/2	9.28s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 9.28s
#210	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/2	0ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.036 ردِعمل کا وقت (اوسط) 0ms
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 161.2s
#158	Qwen3.6 27B none	Qwen	3.2	5.5	$0.087	0/2	83.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 83.1s
#165	GPT-5.6 Luna none	OpenAI	3.2	5.4	$0.142	0/2	6.68s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 6.68s

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز