संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.6

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ69 विफलता कारण कोई उत्तर नहीं के साथ32 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

216/216

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#204	Laguna Xs.2 medium	Poolside	1.5	4.1	$0.015	0/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 15.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7.2	7.3	$0.115	1/2	16.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 16.6s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	17.3s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 17.3s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	17.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 17.6s
#183	Nemotron 3 Super none	NVIDIA	3.0	4.9	$0.008	0/2	18.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 18.2s
#99	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 18.3s
#69	Gemini 3.1 Flash Lite medium	Google	7.2	7.3	$0.117	1/2	18.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 18.5s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	2/2	19.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 19.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	6.5	5.6	$0.048	1/2	19.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 19.6s
#137	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 20.9s
#135	Nemotron 3 Ultra none	NVIDIA	3.0	6.1	$0.095	0/2	21.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 21.1s
#154	Owl Alpha none	Openrouter	1.5	5.6	$0.000	0/1	21.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 21.7s
#129	Inkling low	Thinkingmachines	2.9	6.1	$0.187	0/2	22.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 22.7s
#168	Ling-2.6-1T none	Inclusionai	6.5	5.3	$0.016	1/2	23.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 23.8s
#127	gpt-oss-120b medium	OpenAI	6.5	6.1	$0.019	1/2	24.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 24.0s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल