डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह404 अयशस्वी होण्याचे कारण वेळ संपला सह39 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

206/206

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 15.3s
#87	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 899ms
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 975ms
#62	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 3.54s
#88	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	963ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 963ms
#92	Claude Opus 4.7 none	Anthropic	7.7	6.6	$0.505	2/3	1.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 1.19s
#95	Qwen3.6 Max Preview none	Qwen	7.7	6.6	$0.231	2/3	1.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.22s

1 2 14

→

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स