संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 19.6s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	6.4	5.4	$0.041	1/2	55.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 55.9s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 23.8s
#30	Muse Spark 1.1 high	Meta	5.9	8.1	$1.694	0/2	70.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.3s
#65	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 10.2s
#83	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/2	0ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 0ms
#92	Gemini 3.5 Flash minimal	Google	3.0	6.8	$0.300	0/2	14.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 14.4s
#93	Gemini 3 Flash Preview none	Google	3.8	6.8	$0.085	0/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 12.4s
#94	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/2	817.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 817.6s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	4.1	6.7	$0.476	0/2	183.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 183.1s
#98	GLM 5V Turbo medium	Z.ai	3.4	6.7	$0.457	0/1	15.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 15.1s
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 28.7s
#105	Qwen3.6 27B medium	Qwen	6.7	6.5	$0.779	0/2	584.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 584.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	3.0	6.5	$0.646	0/2	160.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 160.6s
#111	Gemini 3.1 Flash Lite low	Google	3.2	6.5	$0.621	0/2	161.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 161.2s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल