कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.081 प्रतिसाद वेळ (सरासरी) 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 1.53s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 27.9s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.225 प्रतिसाद वेळ (सरासरी) 1.39s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 206.6s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 2.83s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.141 प्रतिसाद वेळ (सरासरी) 4.61s
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 11.2s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स