कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Qwen3.6 Flash 5.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 220.5s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 92.1s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.111 प्रतिसाद वेळ (सरासरी) 6.00s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 109.9s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 31.4s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.316 प्रतिसाद वेळ (सरासरी) 5.19s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 63.4s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 13.4s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.023 प्रतिसाद वेळ (सरासरी) 2.15s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 10.7s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.35s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 2.75s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स