کوڈنگ ماڈل درجہ بندی

AI BENCHY زمرہ

دیکھیں کہ کوڈنگ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط کوڈنگ اسکور

5.7

بہترین ماڈل

Gemini 3.1 Flash Lite Preview 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ230 ناکامی کی وجہ API خرابی کے ساتھ43 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ25 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ18 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ16 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ12

189/189

درجہ	ماڈل	کمپنی	کوڈنگ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#155	Qwen3.5-9B none	Qwen	3.9	5.1	$0.006	0/3	5.60s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.006 ردِعمل کا وقت (اوسط) 5.60s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $1.148 ردِعمل کا وقت (اوسط) 206.2s
#118	GLM 5 none	Z.ai	4.0	6.0	$0.027	0/3	5.12s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.027 ردِعمل کا وقت (اوسط) 5.12s
#172	Elephant Alpha none	Openrouter	4.2	4.6	$0.000	0/3	1.39s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.39s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 17.1s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 2.05s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.025 ردِعمل کا وقت (اوسط) 2.64s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.033 ردِعمل کا وقت (اوسط) 219.8s
#161	GLM 4.7 Flash none	Z.ai	4.3	4.9	$0.004	0/3	2.54s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 2.54s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 1.41s
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 623ms
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.021 ردِعمل کا وقت (اوسط) 2.75s
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.068 ردِعمل کا وقت (اوسط) 40.0s
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.003 ردِعمل کا وقت (اوسط) 775ms
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 320.4s

کوڈنگ درجہ بندی

ماڈلز فلٹر کریں

کوڈنگ اسکور کے لحاظ سے سرفہرست ماڈلز

کوڈنگ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز