संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 1.5

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#195	Elephant Alpha medium	Openrouter	1.5	4.3	$0.000	0/1	3.70s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.70s
#196	Hunter Alpha none	OpenRouter	1.5	4.2	$0.000	0/1	15.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.2s
#197	Grok 4.20 none	X AI	1.5	4.1	$0.057	0/1	6.04s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 6.04s
#198	Laguna Xs.2 medium	Poolside	1.5	4.1	$0.015	0/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 15.9s
#199	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 35.8s
#200	MiMo-V2-Flash none	Xiaomi	1.5	4.0	$0.025	0/1	2.87s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.87s
#202	Grok Build 0.1 none	X AI	1.5	4.0	$0.547	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 0ms
#203	Grok 4.1 Fast none	X AI	1.5	3.8	$0.008	0/1	3.33s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 3.33s
#205	Laguna Xs.2 none	Poolside	1.5	3.8	$0.004	0/1	2.01s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 2.01s
#206	gpt-oss-120b none	OpenAI	1.5	3.7	$0.010	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.5	3.4	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1.5	3.2	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#209	Step 3.5 Flash none	Stepfun	1.5	2.3	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#210	LFM2-24B-A2B none	Liquid	1.5	2.2	$0.001	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#109	Mimo V2 PRO medium	Xiaomi	2.3	6.3	$0.333	0/1	64.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 64.7s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल