संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 29.2s
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	29.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 29.8s
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 30.0s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 30.0s
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.5s
#172	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/2	30.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 30.9s
#118	Claude Sonnet 5 none	Anthropic	6.5	6.3	$0.548	1/2	31.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 31.4s
#57	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 32.2s
#173	Mistral Small 4 medium	Mistral	3.0	5.1	$0.096	0/2	32.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 32.4s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	33.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 33.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 35.0s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	2/2	35.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 35.6s
#184	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/2	35.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 35.7s
#205	Hy3 preview none	Tencent	1.5	4.0	$0.003	0/1	35.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 35.8s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल