कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.1 Flash Lite Preview 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 4.09s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.81s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.316 प्रतिसाद वेळ (सरासरी) 5.19s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.539 प्रतिसाद वेळ (सरासरी) 3.29s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.023 प्रतिसाद वेळ (सरासरी) 2.15s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.35s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 1.53s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.225 प्रतिसाद वेळ (सरासरी) 1.39s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.35s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.141 प्रतिसाद वेळ (सरासरी) 4.61s
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 736ms

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स