कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Qwen3.6 Flash 5.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 924ms
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.14s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 2.93s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 1.03s
#172	Elephant Alpha none	Openrouter	4.2	4.6	$0.000	0/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.39s
#173	Elephant Alpha medium	Openrouter	3.7	4.5	$0.000	0/3	1.30s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.30s
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 1.22s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 14.4s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 55.3s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 4.56s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.64s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.79s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 1.96s
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 775ms

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स