संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ96 विफलता कारण गलत उत्तर के साथ71 विफलता कारण कोई उत्तर नहीं के साथ33 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

220/220

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.4s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 27.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 12.8s
#37	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 223.0s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	1/2	37.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 37.2s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.5	7.2	$0.317	1/2	92.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 92.4s
#77	Grok 4.3 medium	X AI	6.5	7.1	$0.779	1/2	55.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 55.1s
#87	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 8.37s
#89	Qwen3.6 Flash medium	Qwen	6.5	6.9	$0.738	1/2	299.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 299.2s
#91	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 8.90s
#103	Qwen3.6 Max Preview none	Qwen	6.5	6.6	$0.231	1/2	61.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 61.6s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	6.5	6.4	$0.073	1/2	64.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 64.8s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 28.4s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 31.4s
#127	gpt-oss-120b medium	OpenAI	6.5	6.1	$0.019	1/2	24.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 24.0s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल