कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 108.6s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.554 प्रतिसाद वेळ (सरासरी) 73.0s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.310 प्रतिसाद वेळ (सरासरी) 180.7s
#35	Qwen3.5-27B medium	Qwen	6.2	7.9	$0.536	1/3	160.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 160.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.294 प्रतिसाद वेळ (सरासरी) 153.1s
#38	GPT-5.6 Terra medium	OpenAI	6.1	7.8	$0.496	1/3	7.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.496 प्रतिसाद वेळ (सरासरी) 7.19s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.418 प्रतिसाद वेळ (सरासरी) 33.3s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 4.09s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 125.3s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.81s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.888 प्रतिसाद वेळ (सरासरी) 214.4s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 114.5s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.270 प्रतिसाद वेळ (सरासरी) 7.58s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 41.2s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.343 प्रतिसाद वेळ (सरासरी) 9.56s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स