संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Qwen3.6 35B A3B 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#190	Hunter Alpha medium	OpenRouter	2.3	4.7	$0.000	0/1	30.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.5s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 30.0s
#121	Gemma 4 31B none	Google	3.8	6.2	$0.021	0/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 30.0s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	29.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 29.8s
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.4s
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 29.2s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	2/2	29.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 29.0s
#46	GLM 5 medium	Z.ai	5.0	7.7	$0.307	1/1	29.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 29.0s
#174	MiMo-V2.5 none	Xiaomi	3.0	5.1	$0.025	0/2	28.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 28.9s
#104	Gemini 3.5 Flash-Lite medium	Google	3.8	6.5	$0.369	0/2	28.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 28.7s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	28.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 28.4s
#160	MiMo-V2.5-Pro none	Xiaomi	3.0	5.5	$0.068	0/2	28.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 28.3s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 27.5s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	26.7s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 26.7s
#130	Qwen3.6 Flash none	Qwen	3.8	6.1	$0.062	0/2	26.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 26.5s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल