डोमेन-विशिष्ट मॉडल रैंकिंग

देखें कि डोमेन-विशिष्ट में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत डोमेन-विशिष्ट स्कोर

4.7

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ412 विफलता कारण समय समाप्त के साथ43 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ17 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण API त्रुटि के साथ7 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	डोमेन-विशिष्ट स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#89	Gemini 3 Flash Preview none	Google	7.7	6.8	$0.085	2/3	963ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 963ms
#94	Claude Opus 4.7 none	Anthropic	7.7	6.6	$0.505	2/3	1.19s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	7.7	6.6	$0.231	2/3	1.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.22s
#110	Gemma 4 31B medium	Google	7.7	6.3	$0.163	2/3	38.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 38.5s
#115	Gemma 4 31B none	Google	7.7	6.2	$0.035	2/3	3.22s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 3.22s
#125	Qwen3.5-Flash none	Qwen	7.7	6.1	$0.073	2/3	905ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 905ms
#127	Qwen3.5-35B-A3B none	Qwen	7.7	6.1	$0.106	2/3	485ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 485ms
#152	Qwen3.6 27B none	Qwen	7.7	5.5	$0.087	2/3	3.03s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 3.03s
#176	GLM 4.7 Flash none	Z.ai	7.7	4.9	$0.016	2/3	744ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 744ms
#3	GPT-5.6 Sol low	OpenAI	5.3	9.5	$0.971	1/3	29.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 29.1s
#4	GPT-5.6 Sol medium	OpenAI	5.9	9.4	$1.316	1/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 47.9s
#5	GPT-5.6 Sol high	OpenAI	5.3	9.4	$1.234	1/3	39.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 39.5s
#6	GPT-5.5 low	OpenAI	5.3	9.3	$1.253	1/3	28.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 28.1s
#8	Qwen3.7 Max medium	Qwen	5.9	9.2	$1.116	1/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 24.9s
#10	GPT-5.5 medium	OpenAI	5.3	9.0	$4.137	1/3	164.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 164.1s

डोमेन-विशिष्ट रैंकिंग

मॉडल फ़िल्टर करें

डोमेन-विशिष्ट स्कोर के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल