مشترکہ ماڈل درجہ بندی

دیکھیں کہ مشترکہ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط مشترکہ اسکور

5.6

بہترین ماڈل

Gemini 3 PRO Preview 1.5

ناکامی کی وجوہات

ناکامی کی وجہ غیر معتبر ٹول کال کے ساتھ91 ناکامی کی وجہ غلط جواب کے ساتھ69 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ32 ناکامی کی وجہ API خرابی کے ساتھ26 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ5 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ1 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ1

216/216

درجہ	ماڈل	کمپنی	مشترکہ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 30.5s
#123	GPT-5.6 Luna low	OpenAI	2.8	6.2	$0.249	0/2	13.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 13.7s
#157	GLM 5.1 none	Z.ai	2.8	5.5	$0.164	0/2	46.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.164 ردِعمل کا وقت (اوسط) 46.9s
#161	Kimi K2.5 none	Moonshot AI	2.8	5.5	$0.127	0/2	61.0s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.127 ردِعمل کا وقت (اوسط) 61.0s
#200	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/2	802.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 802.8s
#116	Gemma 4 31B medium	Google	2.9	6.3	$0.107	0/2	433.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.107 ردِعمل کا وقت (اوسط) 433.1s
#129	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 22.7s
#131	Qwen3.5-Flash none	Qwen	2.9	6.1	$0.073	0/2	243.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 243.6s
#138	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 7.02s
#143	North Mini Code medium	Cohere	2.9	5.9	$0.000	0/2	554.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 554.9s
#170	Inkling none	Thinkingmachines	2.9	5.2	$0.147	0/2	25.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 25.7s
#65	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.177 ردِعمل کا وقت (اوسط) 10.2s
#83	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $1.079 ردِعمل کا وقت (اوسط) 0ms
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 14.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 817.6s

مشترکہ درجہ بندی

ماڈلز فلٹر کریں

مشترکہ اسکور کے لحاظ سے سرفہرست ماڈلز

مشترکہ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز