डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ412 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 15.3s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 899ms
#209	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 34.5s
#2	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 3.54s
#79	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 10.6s

1 2 14

→

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल