संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#53	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 32.2s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	2/2	15.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 15.1s
#63	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 37.5s
#66	Claude Opus 4.8 none	Anthropic	9.8	7.3	$1.166	2/2	26.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 26.4s
#71	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	2/2	117.7s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 117.7s
#74	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 175.9s
#91	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	2/2	130.2s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 130.2s
#94	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 18.3s
#97	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	2/2	167.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 167.1s
#100	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 46.0s
#113	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 75.7s
#131	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 20.9s
#134	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 25.9s
#135	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 113.1s
#143	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 149.2s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल