संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#140	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 25.9s
#141	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 113.1s
#149	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 149.2s
#159	Hy3 preview low	Tencent	5.0	5.5	$0.015	1/1	78.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 78.7s
#169	Gemini 3.1 Flash Lite Preview high	Google	5.0	5.3	$2.310	1/1	280.5s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 280.5s
#181	Qwen3.6 Plus Preview medium	Qwen	5.0	4.9	$0.000	1/1	35.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 35.0s
#191	Grok 4.1 Fast medium	X AI	5.0	4.7	$0.069	1/1	37.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 37.6s
#4	Gemini 3.5 Flash high	Google	8.2	9.5	$1.976	1/2	84.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 84.1s
#11	Qwen3.7 Max medium	Qwen	8.7	9.2	$1.116	1/2	287.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 287.8s
#14	Gemini 3.5 Flash low	Google	8.2	8.9	$0.433	1/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 30.0s
#19	Muse Spark 1.1 medium	Meta	8.3	8.6	$1.357	1/2	42.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 42.6s
#20	Claude Fable 5 medium	Anthropic	6.5	8.6	$3.478	1/2	27.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 27.5s
#22	Qwen3.6 Max Preview medium	Qwen	7.3	8.4	$1.143	1/2	177.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 177.5s
#23	Grok 4.5 low	X AI	6.5	8.4	$0.935	1/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 12.8s
#26	Claude Sonnet 5 medium	Anthropic	7.3	8.3	$0.922	1/2	51.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 51.9s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल