संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#27	Muse Spark 1.1 low	Meta	6.6	8.3	$0.647	1/2	29.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 29.4s
#29	GPT-5 Mini medium	OpenAI	7.3	8.1	$0.237	1/2	99.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 99.8s
#31	Gemini 3.5 Flash-Lite high	Google	7.3	8.1	$0.584	1/2	29.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 29.2s
#32	Inkling high	Thinkingmachines	7.3	8.0	$1.006	1/2	63.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 63.8s
#33	Step 3.7 Flash medium	Stepfun	7.3	8.0	$0.515	1/2	80.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 80.9s
#34	GPT-5.2 Chat none	OpenAI	7.3	8.0	$0.604	1/2	13.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 13.9s
#36	Inkling medium	Thinkingmachines	7.3	8.0	$0.391	1/2	41.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 41.2s
#37	Kimi K3 max	Moonshot AI	6.5	8.0	$3.112	1/2	223.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 223.0s
#38	GPT-5.6 Terra high	OpenAI	8.7	8.0	$1.055	1/2	13.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 13.7s
#39	Seed-2.0-Lite medium	Bytedance Seed	6.4	7.9	$0.234	1/2	58.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 58.5s
#40	Qwen3.7 Plus medium	Qwen	8.2	7.9	$0.267	1/2	190.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 190.3s
#49	DeepSeek V4 Flash high	DeepSeek	6.4	7.7	$0.041	1/2	104.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 104.1s
#55	Nemotron 3 Ultra medium	NVIDIA	6.3	7.5	$0.774	1/2	218.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 218.2s
#56	Kimi K2.7 Code medium	Moonshot AI	7.3	7.5	$0.740	1/2	66.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 66.0s
#59	GPT-5.6 Terra low	OpenAI	8.7	7.5	$0.519	1/2	9.68s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 9.68s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल