संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 51.9s
#182	GLM 4.7 Flash none	Z.ai	3.0	4.9	$0.016	0/2	50.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 50.2s
#101	GLM 5.2 none	Z.ai	6.9	6.6	$0.128	1/2	50.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 50.2s
#194	Cobuddy medium	Baidu	1.5	4.7	$0.000	0/1	47.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 47.4s
#157	GLM 5.1 none	Z.ai	2.8	5.5	$0.164	0/2	46.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 46.9s
#106	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 46.0s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	2/2	44.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 44.4s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	43.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 43.4s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.6s
#79	Grok 4.20 medium	X AI	8.7	7.1	$0.777	1/2	42.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 42.2s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	42.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 42.1s
#90	Step 3.7 Flash high	Stepfun	8.7	6.9	$1.207	1/2	41.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 41.2s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 41.2s
#10	Gemini 3.1 Pro Preview medium	Google	9.8	9.2	$1.361	2/2	40.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 40.4s
#167	Qwen3.6 35B A3B none	Qwen	3.8	5.3	$0.061	0/2	39.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 39.5s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल