कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.031 प्रतिसाद वेळ (सरासरी) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 3.24s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 143.8s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 42.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 272.5s
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 7.55s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.148 प्रतिसाद वेळ (सरासरी) 206.2s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 109.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.080 प्रतिसाद वेळ (सरासरी) 58.9s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 183.9s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 258.4s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 147.3s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 219.8s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 0ms

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स