डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह412 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

210/210

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#89	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	963ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 963ms
#94	Claude Opus 4.7 none	Anthropic	7.7	6.6	$0.505	2/3	1.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	7.7	6.6	$0.231	2/3	1.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 1.22s
#110	Gemma 4 31B medium	Google	7.7	6.3	$0.163	2/3	38.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 38.5s
#115	Gemma 4 31B none	Google	7.7	6.2	$0.035	2/3	3.22s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 3.22s
#125	Qwen3.5-Flash none	Qwen	7.7	6.1	$0.073	2/3	905ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 905ms
#127	Qwen3.5-35B-A3B none	Qwen	7.7	6.1	$0.106	2/3	485ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 485ms
#152	Qwen3.6 27B none	Qwen	7.7	5.5	$0.087	2/3	3.03s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 3.03s
#176	GLM 4.7 Flash none	Z.ai	7.7	4.9	$0.016	2/3	744ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 744ms
#3	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 29.1s
#4	GPT-5.6 Sol medium	OpenAI	5.9	9.4	$1.316	1/3	47.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 47.9s
#5	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 39.5s
#6	GPT-5.5 low	OpenAI	5.3	9.3	$1.253	1/3	28.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 28.1s
#8	Qwen3.7 Max medium	Qwen	5.9	9.2	$1.116	1/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 24.9s
#10	GPT-5.5 medium	OpenAI	5.3	9.0	$4.137	1/3	164.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 164.1s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स