डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

GLM 5 Turbo 2.9

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#35	GLM 5.2 high	Z.ai	3.7	8.0	$0.817	0/3	74.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 74.0s
#42	GLM 5.2 medium	Z.ai	4.1	7.8	$0.187	0/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 45.5s
#49	DeepSeek V4 Flash high	DeepSeek	4.1	7.7	$0.041	0/3	100.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 100.3s
#60	GPT-5.4 Mini medium	OpenAI	4.1	7.5	$0.756	0/3	65.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 65.3s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	4.1	7.4	$0.387	0/3	17.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 17.5s
#90	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 149.6s
#125	Qwen3.5-35B-A3B medium	Qwen	4.1	6.2	$0.837	0/3	88.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 88.3s
#204	Laguna Xs.2 medium	Poolside	4.1	4.1	$0.015	0/3	11.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 11.1s
#134	GPT-5 Nano medium	OpenAI	5.2	6.1	$0.114	1/3	204.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 204.0s
#5	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 29.1s
#8	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 39.5s
#13	GPT-5.5 medium	OpenAI	5.3	9.0	$4.137	1/3	164.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 164.1s
#20	Claude Fable 5 medium	Anthropic	5.3	8.6	$3.478	1/3	53.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 53.4s
#21	GPT-5.4 medium	OpenAI	5.3	8.5	$1.533	1/3	74.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 74.3s
#31	Gemini 3.5 Flash-Lite high	Google	5.3	8.1	$0.584	1/3	19.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 19.5s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स