संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	25.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 25.0s
#122	Seed-2.0-Lite none	Bytedance Seed	3.0	6.2	$0.066	0/2	25.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 25.6s
#170	Inkling none	Thinkingmachines	2.9	5.2	$0.147	0/2	25.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 25.7s
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 25.9s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	26.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 26.0s
#70	Claude Opus 4.8 none	Anthropic	9.8	7.3	$1.166	2/2	26.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 26.4s
#130	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 26.5s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	26.7s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 26.7s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 27.5s
#160	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.068	0/2	28.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 28.3s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 28.4s
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 28.7s
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/2	28.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 28.9s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 29.0s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	2/2	29.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 29.0s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल