डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ404 विफलता कारण समय समाप्त के साथ39 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

206/206

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 15.3s
#87	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 899ms
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 975ms
#62	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 3.54s
#88	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	963ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 963ms
#92	Claude Opus 4.7 none	Anthropic	7.7	6.6	$0.505	2/3	1.19s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 1.19s
#95	Qwen3.6 Max Preview none	Qwen	7.7	6.6	$0.231	2/3	1.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.22s

1 2 14

→

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल