कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.316 प्रतिसाद वेळ (सरासरी) 5.19s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 63.4s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 13.4s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.023 प्रतिसाद वेळ (सरासरी) 2.15s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 10.7s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.35s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 2.75s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 94.2s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 38.4s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स