संयुक्त मॉडेल क्रमवारी

संयुक्त मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी संयुक्त स्कोअर

5.5

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण अवैध टूल कॉल सह91 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह68 अयशस्वी होण्याचे कारण उत्तर नाही सह29 अयशस्वी होण्याचे कारण API त्रुटी सह26 अयशस्वी होण्याचे कारण वेळ संपला सह5 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह1 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	संयुक्त स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	26.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 26.7s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	14.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 14.6s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	17.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 17.6s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	25.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 25.0s
#6	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	2/2	13.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 13.7s
#7	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 40.4s
#9	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	2/2	44.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 44.4s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 33.5s
#12	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 35.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	26.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 26.0s
#14	Claude Opus 4.8 medium	Anthropic	9.9	8.8	$1.931	2/2	54.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 54.3s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	43.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 43.4s
#18	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	29.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 29.8s
#21	GPT-5.2 medium	OpenAI	10.0	8.4	$0.951	2/2	58.5s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 58.5s
#22	Grok 4.5 medium	X AI	10.0	8.3	$1.928	2/2	29.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 29.0s

1 2 14

→

संयुक्त क्रमवारी

मॉडेल फिल्टर करा

संयुक्त स्कोअर नुसार शीर्ष मॉडेल्स

संयुक्त स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स