مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.5

بہترین ماڈل

Qwen3.6 35B A3B 3.0

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ68 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ29 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

210/210

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 817.6s
#130	Step 3.5 Flash medium	Stepfun	6.5	6.0	$0.108	1/2	813.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.108 ردِعمل کا وقت (اوسط) 813.7s
#194	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/2	802.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 802.8s
#58	Qwen3.5-27B medium	Qwen	7.3	7.4	$1.627	1/2	595.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 595.2s
#99	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 584.1s
#137	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 554.9s
#119	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 512.8s
#95	Gemma 4 26B A4B medium	Google	6.3	6.6	$0.089	1/2	492.9s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 492.9s
#68	Kimi K2.6 medium	Moonshot AI	6.9	7.2	$1.036	1/2	458.6s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 458.6s
#110	Gemma 4 31B medium	Google	2.9	6.3	$0.163	0/2	433.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 433.1s
#31	GLM 5.2 high	Z.ai	10.0	8.0	$0.970	2/2	321.5s
کل ٹیسٹس 2 غلط ٹیسٹس 0 کل لاگت $0.970 ردِعمل کا وقت (اوسط) 321.5s
#72	Qwen3.5-122B-A10B medium	Qwen	6.4	7.1	$1.046	1/2	313.5s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 313.5s
#85	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 299.2s
#8	Qwen3.7 Max medium	Qwen	8.7	9.2	$1.116	1/2	287.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 287.8s
#80	Seed-2.0-Mini medium	Bytedance Seed	7.3	7.0	$0.101	1/2	282.3s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.101 ردِعمل کا وقت (اوسط) 282.3s

1 2 14

→

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز