कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.35s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 1.53s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.225 प्रतिसाद वेळ (सरासरी) 1.39s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.35s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.141 प्रतिसाद वेळ (सरासरी) 4.61s
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.130 प्रतिसाद वेळ (सरासरी) 1.00s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स