संयुक्त मॉडल रैंकिंग

देखें कि संयुक्त में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत संयुक्त स्कोर

5.5

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 3.0

विफलता के कारण

विफलता कारण अमान्य टूल कॉल के साथ91 विफलता कारण गलत उत्तर के साथ68 विफलता कारण कोई उत्तर नहीं के साथ29 विफलता कारण API त्रुटि के साथ26 विफलता कारण समय समाप्त के साथ5 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ1 विफलता कारण निर्देशों का पालन नहीं किया के साथ1

210/210

रैंक	मॉडल	कंपनी	संयुक्त स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#120	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.047	0/2	7.75s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 7.75s
#78	Mercury 2 medium	Inception	6.7	7.0	$0.093	1/2	7.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 7.84s
#83	GPT-5.6 Sol none	OpenAI	6.5	6.9	$0.524	1/2	8.37s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 8.37s
#87	GPT-5.5 none	OpenAI	6.5	6.9	$0.544	1/2	8.90s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 8.90s
#183	Trinity Large Preview none	Arcee AI	1.5	4.8	$0.008	0/1	8.91s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.91s
#139	GPT-5.4 none	OpenAI	3.0	5.8	$0.397	0/2	9.26s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 9.26s
#201	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/2	9.28s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 9.28s
#122	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.046	0/2	9.49s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 9.49s
#55	GPT-5.6 Terra low	OpenAI	8.7	7.5	$0.519	1/2	9.68s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 9.68s
#146	Owl Alpha medium	Openrouter	1.5	5.6	$0.000	0/1	10.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.0s
#61	Gemini 3 Flash Preview low	Google	3.0	7.4	$0.177	0/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 10.2s
#133	Gemini 3 PRO Preview medium	Google	1.5	6.0	$0.385	0/1	10.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 10.4s
#160	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/2	10.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 10.4s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	11.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 11.1s
#89	Gemini 3 Flash Preview none	Google	3.8	6.8	$0.085	0/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 12.4s

संयुक्त रैंकिंग

मॉडल फ़िल्टर करें

संयुक्त स्कोर के अनुसार शीर्ष मॉडल

संयुक्त स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल