مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.6

بہترین ماڈل

Muse Spark 1.1 5.9

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ69 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ32 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 30.0s
#122	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.066 ردِعمل کا وقت (اوسط) 25.6s
#123	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 13.7s
#124	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/2	61.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 61.2s
#125	Qwen3.5-35B-A3B medium	Qwen	3.8	6.2	$0.837	0/2	512.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 512.8s
#126	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.047 ردِعمل کا وقت (اوسط) 7.75s
#128	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.046 ردِعمل کا وقت (اوسط) 9.49s
#129	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 22.7s
#130	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 26.5s
#131	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 243.6s
#133	Qwen3.5-35B-A3B none	Qwen	3.8	6.1	$0.106	0/2	128.3s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.106 ردِعمل کا وقت (اوسط) 128.3s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.095 ردِعمل کا وقت (اوسط) 21.1s
#138	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 7.02s
#139	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.385 ردِعمل کا وقت (اوسط) 10.4s
#143	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 554.9s

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز