संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#193	Elephant Alpha none	Openrouter	1.5	4.3	$0.000	0/1	3.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.81s
#192	Laguna M.1 none	Poolside	1.5	4.4	$0.009	0/1	4.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 4.32s
#170	GLM 5 Turbo none	Z.ai	1.5	5.1	$0.047	0/1	4.89s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 4.89s
#141	GLM 5 none	Z.ai	1.5	5.7	$0.041	0/1	4.98s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 4.98s
#157	Mimo V2 Omni none	Xiaomi	1.5	5.5	$0.021	0/1	5.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.96s
#197	Grok 4.20 none	X AI	1.5	4.1	$0.057	0/1	6.04s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 6.04s
#136	GPT-5.4 Mini none	OpenAI	6.5	5.9	$0.095	1/2	6.22s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 6.22s
#106	Gemini 3.1 Flash Lite Preview none	Google	3.0	6.4	$0.052	0/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 6.23s
#174	GPT-4o-mini none	OpenAI	3.0	5.0	$0.010	0/2	6.32s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 6.32s
#191	Grok 4.20 Beta none	X AI	1.5	4.4	$0.087	0/1	6.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 6.48s
#145	GLM 5V Turbo none	Z.ai	1.5	5.6	$0.052	0/1	6.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 6.51s
#147	Mimo V2 PRO none	Xiaomi	1.5	5.6	$0.045	0/1	6.58s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 6.58s
#159	GPT-5.6 Luna none	OpenAI	3.2	5.4	$0.142	0/2	6.68s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 6.68s
#132	GPT-5.6 Terra none	OpenAI	2.9	6.0	$0.349	0/2	7.02s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 7.02s
#165	Mistral Small 4 none	Mistral	3.0	5.1	$0.022	0/2	7.44s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 7.44s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल