8.4संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
8.5संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
प्रति परिणाम लागत
0.220यह बेंचमार्क के प्रति सही उत्तर की औसत लागत सेंट में दिखाता है (कम होना बेहतर है)।…
6.601यह बेंचमार्क के प्रति सही उत्तर की औसत लागत सेंट में दिखाता है (कम होना बेहतर है)।…
कुल लागत
$0.016कुल लागत…
$0.793कुल लागत…
सही परीक्षण
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 6अतिरिक्त फॉर्मेटिंग: 2invalid tool call: 1प्रतिक्रिया समय (औसत)12.86sप्रतिक्रिया समय (अधिकतम)115.89sप्रतिक्रिया समय (कुल)205.78sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।निर्देशों का पालन नहीं किया: 2गलत उत्तर: 2प्रतिक्रिया समय (औसत)20.05sप्रतिक्रिया समय (अधिकतम)100.41sप्रतिक्रिया समय (कुल)320.87sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
प्रति प्रयास पास दर
54.2%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
83.3%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
अस्थिर टेस्ट
3अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
3अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कुल रन
48 (16 x 3)कुल रन…
48 (16 x 3)कुल रन…
आउटपुट टोकन
7,823आउटपुट टोकन…
1,756आउटपुट टोकन…
रीजनिंग टोकन
0रीजनिंग टोकन…
46,642रीजनिंग टोकन…
प्रतिक्रिया समय (औसत)
12.86sप्रतिक्रिया समय (औसत)…
20.05sप्रतिक्रिया समय (औसत)…
प्रतिक्रिया समय (अधिकतम)
115.89sप्रतिक्रिया समय (अधिकतम)…
100.41sप्रतिक्रिया समय (अधिकतम)…
प्रतिक्रिया समय (कुल)
205.78sप्रतिक्रिया समय (कुल)…
320.87sप्रतिक्रिया समय (कुल)…
स्कोर के अनुसार शीर्ष मॉडल
स्कोर बनाम कुल लागत
प्रतिक्रिया समय (औसत)
औसत स्कोर vs प्रतिक्रिया समय (औसत)
श्रेणी विवरण
एंटी-एआई ट्रिक्स
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
9.7संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
0.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।अतिरिक्त फॉर्मेटिंग: 2गलत उत्तर: 1प्रतिक्रिया समय (औसत)8.79sप्रतिक्रिया समय (अधिकतम)12.26sप्रतिक्रिया समय (कुल)26.38sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
8.79sप्रतिक्रिया समय (औसत)…
1,411आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)5.02sप्रतिक्रिया समय (अधिकतम)6.42sप्रतिक्रिया समय (कुल)15.06sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
5.02sप्रतिक्रिया समय (औसत)…
216आउटपुट टोकन…
1,466रीजनिंग टोकन…
संयुक्त
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
8.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
0.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।invalid tool call: 1प्रतिक्रिया समय (औसत)115.89sप्रतिक्रिया समय (अधिकतम)115.89sप्रतिक्रिया समय (कुल)115.89sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
115.89sप्रतिक्रिया समय (औसत)…
2,887आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)20.57sप्रतिक्रिया समय (अधिकतम)20.57sप्रतिक्रिया समय (कुल)20.57sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
20.57sप्रतिक्रिया समय (औसत)…
301आउटपुट टोकन…
3,543रीजनिंग टोकन…
डेटा पार्सिंग और निष्कर्षण
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
5.4सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
5.8संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
66.7%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)9.42sप्रतिक्रिया समय (अधिकतम)16.20sप्रतिक्रिया समय (कुल)18.84sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
9.42sप्रतिक्रिया समय (औसत)…
1,710आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
9.9सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)5.32sप्रतिक्रिया समय (अधिकतम)5.40sप्रतिक्रिया समय (कुल)10.64sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
5.32sप्रतिक्रिया समय (औसत)…
234आउटपुट टोकन…
804रीजनिंग टोकन…
डोमेन-विशिष्ट
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
7.2संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
22.2%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 3प्रतिक्रिया समय (औसत)1.61sप्रतिक्रिया समय (अधिकतम)1.77sप्रतिक्रिया समय (कुल)4.83sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
1.61sप्रतिक्रिया समय (औसत)…
24आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
4.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
7.2संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
44.4%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 2प्रतिक्रिया समय (औसत)74.27sप्रतिक्रिया समय (अधिकतम)100.41sप्रतिक्रिया समय (कुल)222.80sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
74.27sप्रतिक्रिया समय (औसत)…
61आउटपुट टोकन…
34,748रीजनिंग टोकन…
Samanya Buddhimatta
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)2.86sप्रतिक्रिया समय (अधिकतम)2.86sप्रतिक्रिया समय (कुल)2.86sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
2.86sप्रतिक्रिया समय (औसत)…
67आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
5.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
3.1संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
33.3%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।निर्देशों का पालन नहीं किया: 1प्रतिक्रिया समय (औसत)4.92sप्रतिक्रिया समय (अधिकतम)4.92sप्रतिक्रिया समय (कुल)4.92sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
4.92sप्रतिक्रिया समय (औसत)…
145आउटपुट टोकन…
321रीजनिंग टोकन…
निर्देश पालन
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)1.52sप्रतिक्रिया समय (अधिकतम)1.99sप्रतिक्रिया समय (कुल)3.04sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
1.52sप्रतिक्रिया समय (औसत)…
66आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)3.11sप्रतिक्रिया समय (अधिकतम)3.68sप्रतिक्रिया समय (कुल)6.22sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
3.11sप्रतिक्रिया समय (औसत)…
93आउटपुट टोकन…
897रीजनिंग टोकन…
Puzzle Solving
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
7.7सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
7.5संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
88.9%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।गलत उत्तर: 1प्रतिक्रिया समय (औसत)7.37sप्रतिक्रिया समय (अधिकतम)10.78sप्रतिक्रिया समय (कुल)22.10sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
7.37sप्रतिक्रिया समय (औसत)…
1,136आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
7.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
7.2संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
88.9%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
1अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।निर्देशों का पालन नहीं किया: 1प्रतिक्रिया समय (औसत)9.13sप्रतिक्रिया समय (अधिकतम)18.14sप्रतिक्रिया समय (कुल)27.39sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
9.13sप्रतिक्रिया समय (औसत)…
442आउटपुट टोकन…
3,832रीजनिंग टोकन…
टूल कॉलिंग
स्कोर
संगति
प्रति प्रयास पास दर
अस्थिर टेस्ट
सही परीक्षण
प्रतिक्रिया समय (औसत)
आउटपुट टोकन
रीजनिंग टोकन
DeepSeek: DeepSeek V3.2
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)11.85sप्रतिक्रिया समय (अधिकतम)11.85sप्रतिक्रिया समय (कुल)11.85sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…
11.85sप्रतिक्रिया समय (औसत)…
522आउटपुट टोकन…
0रीजनिंग टोकन…
OpenAI: GPT-5.4
10.0सभी बेंचमार्क परीक्षणों का औसत स्कोर।…
10.0संगति स्कोर रनों के बीच स्थिरता दिखाता है (10 = बहुत स्थिर, भले लगातार गलत हो)।…
100.0%प्रति प्रयास पास दर = पास प्रयास / सभी रनों में कुल प्रयास।…
0अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।…
कोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।कोई विफल उत्तर नहीं।प्रतिक्रिया समय (औसत)13.28sप्रतिक्रिया समय (अधिकतम)13.28sप्रतिक्रिया समय (कुल)13.28sकोई टेस्ट तभी पूरी तरह पास माना जाएगा जब उसके सभी रन पास हों।…