डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Claude Sonnet 4.6 2.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ412 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#40	Claude Sonnet 4.6 medium	Anthropic	2.9	7.8	$2.057	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 0ms
#42	GLM 5 medium	Z.ai	3.5	7.7	$0.307	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 0ms
#80	Seed-2.0-Mini medium	Bytedance Seed	3.0	7.0	$0.101	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 0ms
#210	LFM2-24B-A2B none	Liquid	5.9	2.2	$0.001	1/3	287ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 287ms
#201	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/3	357ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 357ms
#160	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/3	364ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 364ms
#165	Mistral Small 4 none	Mistral	5.3	5.1	$0.022	1/3	367ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 367ms
#205	Laguna Xs.2 none	Poolside	5.3	3.8	$0.004	1/3	371ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 371ms
#169	Qwen3.5-9B none	Qwen	3.0	5.1	$0.021	0/3	464ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 464ms
#142	Qwen3.5-122B-A10B none	Qwen	5.3	5.7	$0.247	1/3	465ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 465ms
#127	Qwen3.5-35B-A3B none	Qwen	7.7	6.1	$0.106	2/3	485ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 485ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.6	3.2	$0.000	0/3	489ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 489ms
#118	Gemini 2.5 Flash none	Google	5.9	6.2	$0.017	1/3	495ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 495ms
#189	Mercury 2 none	Inception	5.3	4.6	$0.030	1/3	534ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 534ms
#103	Qwen3.5-27B none	Qwen	3.0	6.5	$0.090	0/3	540ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 540ms

1 2 14

→

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल