डोमेन-विशिष्ट मॉडेल क्रमवारी

डोमेन-विशिष्ट मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी डोमेन-विशिष्ट स्कोअर

4.7

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह421 अयशस्वी होण्याचे कारण वेळ संपला सह43 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह17 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण API त्रुटी सह7 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह1

216/216

क्रमांक	मॉडेल	कंपनी	डोमेन-विशिष्ट स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#82	Mercury 2 medium	Inception	2.9	7.0	$0.093	0/3	6.48s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 6.48s
#84	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 0ms
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	2.9	6.9	$0.467	0/3	29.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 29.0s
#87	GPT-5.6 Sol none	OpenAI	3.6	6.9	$0.524	0/3	1.43s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 1.43s
#89	Qwen3.6 Flash medium	Qwen	3.5	6.9	$0.738	0/3	14.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 14.6s
#90	Step 3.7 Flash high	Stepfun	4.1	6.9	$1.207	0/3	149.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 149.6s
#91	GPT-5.5 none	OpenAI	2.9	6.9	$0.544	0/3	1.31s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 1.31s
#95	Gemini 3.5 Flash-Lite low	Google	3.6	6.7	$0.145	0/3	3.63s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 3.63s
#96	LongCat 2.0 low	Meituan	3.0	6.7	$0.391	0/3	86.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 86.1s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	3.6	6.7	$0.476	0/3	21.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 21.6s
#100	Gemma 4 26B A4B medium	Google	2.9	6.6	$0.089	0/3	23.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 23.6s
#102	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/3	400.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 400.3s
#104	Gemini 3.5 Flash-Lite medium	Google	2.9	6.5	$0.369	0/3	6.62s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.369 प्रतिसाद वेळ (सरासरी) 6.62s
#105	Qwen3.6 27B medium	Qwen	2.9	6.5	$0.779	0/3	73.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 73.4s
#108	Laguna XS 2.1 medium	Poolside	2.9	6.5	$0.068	0/3	65.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 65.7s

डोमेन-विशिष्ट क्रमवारी

मॉडेल फिल्टर करा

डोमेन-विशिष्ट स्कोअर नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स