कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 30.1s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.924 प्रतिसाद वेळ (सरासरी) 15.6s
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.131 प्रतिसाद वेळ (सरासरी) 144.7s
#53	DeepSeek V4 Pro high	DeepSeek	6.1	7.6	$0.157	1/3	243.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.157 प्रतिसाद वेळ (सरासरी) 243.0s
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.927 प्रतिसाद वेळ (सरासरी) 108.5s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.258 प्रतिसाद वेळ (सरासरी) 10.4s
#56	Kimi K2.5 medium	Moonshot AI	6.1	7.5	$0.348	1/3	217.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.348 प्रतिसाद वेळ (सरासरी) 217.5s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 10.5s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 19.1s
#61	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.042	1/3	248.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 220.5s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 92.1s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.111 प्रतिसाद वेळ (सरासरी) 6.00s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 109.9s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 31.4s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स