संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Muse Spark 1.1 5.9

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#199	Elephant Alpha none	Openrouter	1.5	4.3	$0.000	0/1	3.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.81s
#200	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/2	802.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 802.8s
#201	Elephant Alpha medium	Openrouter	1.5	4.3	$0.000	0/1	3.70s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.70s
#202	Hunter Alpha none	OpenRouter	1.5	4.2	$0.000	0/1	15.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.2s
#203	Grok 4.20 none	X AI	1.5	4.1	$0.057	0/1	6.04s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 6.04s
#204	Laguna Xs.2 medium	Poolside	1.5	4.1	$0.015	0/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 15.9s
#205	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 35.8s
#206	MiMo-V2-Flash none	Xiaomi	1.5	4.0	$0.025	0/1	2.87s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.87s
#207	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/2	9.28s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 9.28s
#208	Grok Build 0.1 none	X AI	1.5	4.0	$0.547	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 0ms
#209	Grok 4.1 Fast none	X AI	1.5	3.8	$0.008	0/1	3.33s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 3.33s
#210	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/2	0ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 0ms
#211	Laguna Xs.2 none	Poolside	1.5	3.8	$0.004	0/1	2.01s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 2.01s
#212	gpt-oss-120b none	OpenAI	1.5	3.7	$0.010	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 0ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.5	3.4	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल