کوڈنگ ماڈل درجہ بندی

AI BENCHY زمرہ

دیکھیں کہ کوڈنگ میں کون سے AI ماڈلز بہترین کارکردگی دکھاتے ہیں، کون سے قابلِ اعتماد رہتے ہیں، اور سب سے بڑے فرق کہاں نظر آتے ہیں۔ ترتیب دیں حسب: میٹرک ↑.

دکھائے گئے ماڈلز

اوسط کوڈنگ اسکور

5.7

بہترین ماڈل

Gemini 3.1 Flash Lite Preview 0.0

ناکامی کی وجوہات

ناکامی کی وجہ غلط جواب کے ساتھ230 ناکامی کی وجہ API خرابی کے ساتھ43 ناکامی کی وجہ ٹائم آؤٹ کے ساتھ25 ناکامی کی وجہ کوئی جواب نہیں کے ساتھ18 ناکامی کی وجہ ہدایات پر عمل نہیں کیا کے ساتھ16 ناکامی کی وجہ اضافی فارمیٹنگ کے ساتھ12

189/189

درجہ	ماڈل	کمپنی	کوڈنگ اسکور	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.016 ردِعمل کا وقت (اوسط) 14.5s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.020 ردِعمل کا وقت (اوسط) 147.3s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.006 ردِعمل کا وقت (اوسط) 1.63s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.054 ردِعمل کا وقت (اوسط) 55.3s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.683 ردِعمل کا وقت (اوسط) 183.9s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.006 ردِعمل کا وقت (اوسط) 2.64s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $0.505 ردِعمل کا وقت (اوسط) 2.84s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $0.750 ردِعمل کا وقت (اوسط) 31.4s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $2.044 ردِعمل کا وقت (اوسط) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $5.599 ردِعمل کا وقت (اوسط) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $0.547 ردِعمل کا وقت (اوسط) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
کل ٹیسٹس 1 غلط ٹیسٹس 0 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.27s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.011 ردِعمل کا وقت (اوسط) 1.03s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.303 ردِعمل کا وقت (اوسط) 188.6s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
کل ٹیسٹس 3 غلط ٹیسٹس 3 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 14.3s

کوڈنگ درجہ بندی

ماڈلز فلٹر کریں

کوڈنگ اسکور کے لحاظ سے سرفہرست ماڈلز

کوڈنگ اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز