कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

North Mini Code 4.5

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 59.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.080 प्रतिसाद वेळ (सरासरी) 58.9s
#33	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.526 प्रतिसाद वेळ (सरासरी) 57.9s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 55.3s
#27	DeepSeek V4 Flash high	DeepSeek	7.8	8.3	$0.027	2/3	50.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 50.6s
#89	Qwen3.6 35B A3B medium	Qwen	7.7	6.7	$0.146	2/3	50.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.146 प्रतिसाद वेळ (सरासरी) 50.5s
#24	GLM 5 Turbo medium	Z.ai	8.2	8.4	$0.323	2/3	45.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 45.9s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 44.4s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 42.9s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.081 प्रतिसाद वेळ (सरासरी) 41.6s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 41.2s
#28	Gemini 2.5 Flash medium	Google	7.8	8.2	$0.379	2/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.379 प्रतिसाद वेळ (सरासरी) 41.0s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.179 प्रतिसाद वेळ (सरासरी) 41.0s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.054 प्रतिसाद वेळ (सरासरी) 40.2s
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 40.0s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स