कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3 PRO Preview 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 938ms
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 967ms
#143	GPT-5.6 Luna none	OpenAI	3.8	5.3	$0.047	0/3	980ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 980ms
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.130 प्रतिसाद वेळ (सरासरी) 1.00s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 1.02s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 1.03s
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.14s
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 1.22s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.27s
#173	Elephant Alpha medium	Openrouter	3.7	4.5	$0.000	0/3	1.30s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.30s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 1.35s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.35s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.225 प्रतिसाद वेळ (सरासरी) 1.39s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 1.39s
#172	Elephant Alpha none	Openrouter	4.2	4.6	$0.000	0/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.39s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स