कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.927 प्रतिसाद वेळ (सरासरी) 108.5s
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.100 प्रतिसाद वेळ (सरासरी) 101.9s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 36.9s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 2.75s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 13.4s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 2.83s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 10.5s
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 220.5s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 82.6s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 4.09s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.81s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.316 प्रतिसाद वेळ (सरासरी) 5.19s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.29s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.023 प्रतिसाद वेळ (सरासरी) 2.15s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 70.3s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स