8.4सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
7.9सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
प्रति निकाल खर्च
0.220हे बेंचमार्कमधील प्रत्येक बरोबर उत्तरामागील सरासरी खर्च सेंट्समध्ये दाखवते (कमी असणे चांगले).…
3.125हे बेंचमार्कमधील प्रत्येक बरोबर उत्तरामागील सरासरी खर्च सेंट्समध्ये दाखवते (कमी असणे चांगले).…
एकूण खर्च
$0.016एकूण खर्च…
$0.313एकूण खर्च…
बरोबर चाचण्या
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.चुकीचे उत्तर: 6अतिरिक्त फॉरमॅटिंग: 2invalid tool call: 1प्रतिसाद वेळ (सरासरी)12.86sप्रतिसाद वेळ (कमाल)115.89sप्रतिसाद वेळ (एकूण)205.78sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.सूचनांचे पालन केले नाही: 3उत्तर नाही: 1वेळ संपला: 1चुकीचे उत्तर: 1प्रतिसाद वेळ (सरासरी)15.33sप्रतिसाद वेळ (कमाल)77.80sप्रतिसाद वेळ (एकूण)138.01sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
प्रति प्रयत्न पास दर
54.2%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
75.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
अस्थिर चाचण्या
3अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
4अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एकूण रन
48एकूण रन…
48एकूण रन…
आउटपुट टोकन्स
7,823आउटपुट टोकन्स…
2,220आउटपुट टोकन्स…
रिझनिंग टोकन्स
0रिझनिंग टोकन्स…
16,811रिझनिंग टोकन्स…
प्रतिसाद वेळ (सरासरी)
12.86sप्रतिसाद वेळ (सरासरी)…
15.33sप्रतिसाद वेळ (सरासरी)…
प्रतिसाद वेळ (कमाल)
115.89sप्रतिसाद वेळ (कमाल)…
77.80sप्रतिसाद वेळ (कमाल)…
प्रतिसाद वेळ (एकूण)
205.78sप्रतिसाद वेळ (एकूण)…
138.01sप्रतिसाद वेळ (एकूण)…
स्कोअरनुसार शीर्ष मॉडेल्स
स्कोअर विरुद्ध एकूण खर्च
प्रतिसाद वेळ (सरासरी)
सरासरी स्कोअर vs प्रतिसाद वेळ (सरासरी)
श्रेणीवार तपशील
अँटी-एआय युक्त्या
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
9.7सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
0.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अतिरिक्त फॉरमॅटिंग: 2चुकीचे उत्तर: 1प्रतिसाद वेळ (सरासरी)8.79sप्रतिसाद वेळ (कमाल)12.26sप्रतिसाद वेळ (एकूण)26.38sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
8.79sप्रतिसाद वेळ (सरासरी)…
1,411आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
7.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
7.3सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
77.8%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.सूचनांचे पालन केले नाही: 1प्रतिसाद वेळ (सरासरी)14.34sप्रतिसाद वेळ (कमाल)14.34sप्रतिसाद वेळ (एकूण)14.34sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
14.34sप्रतिसाद वेळ (सरासरी)…
549आउटपुट टोकन्स…
2,002रिझनिंग टोकन्स…
संयुक्त
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
8.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
0.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.invalid tool call: 1प्रतिसाद वेळ (सरासरी)115.89sप्रतिसाद वेळ (कमाल)115.89sप्रतिसाद वेळ (एकूण)115.89sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
115.89sप्रतिसाद वेळ (सरासरी)…
2,887आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
100.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अयशस्वी उत्तरे नाहीत.प्रतिसाद वेळ (सरासरी)14.06sप्रतिसाद वेळ (कमाल)14.06sप्रतिसाद वेळ (एकूण)14.06sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
14.06sप्रतिसाद वेळ (सरासरी)…
291आउटपुट टोकन्स…
1,757रिझनिंग टोकन्स…
डेटा पार्सिंग आणि निष्कर्षण
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
5.4सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
5.8सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
66.7%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.चुकीचे उत्तर: 1प्रतिसाद वेळ (सरासरी)9.42sप्रतिसाद वेळ (कमाल)16.20sप्रतिसाद वेळ (एकूण)18.84sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
9.42sप्रतिसाद वेळ (सरासरी)…
1,710आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
9.9सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
100.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अयशस्वी उत्तरे नाहीत.प्रतिसाद वेळ (सरासरी)3.15sप्रतिसाद वेळ (कमाल)3.15sप्रतिसाद वेळ (एकूण)3.15sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
3.15sप्रतिसाद वेळ (सरासरी)…
234आउटपुट टोकन्स…
420रिझनिंग टोकन्स…
डोमेन-विशिष्ट
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
7.2सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
22.2%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.चुकीचे उत्तर: 3प्रतिसाद वेळ (सरासरी)1.61sप्रतिसाद वेळ (कमाल)1.77sप्रतिसाद वेळ (एकूण)4.83sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
1.61sप्रतिसाद वेळ (सरासरी)…
24आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
4.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
7.2सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
55.6%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.वेळ संपला: 1चुकीचे उत्तर: 1प्रतिसाद वेळ (सरासरी)77.80sप्रतिसाद वेळ (कमाल)77.80sप्रतिसाद वेळ (एकूण)77.80sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
77.80sप्रतिसाद वेळ (सरासरी)…
42आउटपुट टोकन्स…
10,342रिझनिंग टोकन्स…
Samanya Buddhimatta
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
100.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अयशस्वी उत्तरे नाहीत.प्रतिसाद वेळ (सरासरी)2.86sप्रतिसाद वेळ (कमाल)2.86sप्रतिसाद वेळ (एकूण)2.86sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
2.86sप्रतिसाद वेळ (सरासरी)…
67आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
9.7सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
0.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.सूचनांचे पालन केले नाही: 1प्रतिसाद वेळ (सरासरी)4.32sप्रतिसाद वेळ (कमाल)4.32sप्रतिसाद वेळ (एकूण)4.32sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
4.32sप्रतिसाद वेळ (सरासरी)…
162आउटपुट टोकन्स…
269रिझनिंग टोकन्स…
सूचनांचे पालन
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
100.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अयशस्वी उत्तरे नाहीत.प्रतिसाद वेळ (सरासरी)1.52sप्रतिसाद वेळ (कमाल)1.99sप्रतिसाद वेळ (एकूण)3.04sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
1.52sप्रतिसाद वेळ (सरासरी)…
66आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
9.5सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
100.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अयशस्वी उत्तरे नाहीत.प्रतिसाद वेळ (सरासरी)3.12sप्रतिसाद वेळ (कमाल)3.12sप्रतिसाद वेळ (एकूण)3.12sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
3.12sप्रतिसाद वेळ (सरासरी)…
94आउटपुट टोकन्स…
614रिझनिंग टोकन्स…
Puzzle Solving
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
7.7सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
7.5सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
88.9%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.चुकीचे उत्तर: 1प्रतिसाद वेळ (सरासरी)7.37sप्रतिसाद वेळ (कमाल)10.78sप्रतिसाद वेळ (एकूण)22.10sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
7.37sप्रतिसाद वेळ (सरासरी)…
1,136आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
7.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
7.3सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
77.8%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.सूचनांचे पालन केले नाही: 1प्रतिसाद वेळ (सरासरी)5.47sप्रतिसाद वेळ (कमाल)6.45sप्रतिसाद वेळ (एकूण)10.94sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
5.47sप्रतिसाद वेळ (सरासरी)…
609आउटपुट टोकन्स…
938रिझनिंग टोकन्स…
टूल कॉलिंग
स्कोअर
सुसंगतता
प्रति प्रयत्न पास दर
अस्थिर चाचण्या
बरोबर चाचण्या
प्रतिसाद वेळ (सरासरी)
आउटपुट टोकन्स
रिझनिंग टोकन्स
DeepSeek: DeepSeek V3.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
10.0सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
100.0%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
0अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.अयशस्वी उत्तरे नाहीत.प्रतिसाद वेळ (सरासरी)11.85sप्रतिसाद वेळ (कमाल)11.85sप्रतिसाद वेळ (एकूण)11.85sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…
11.85sप्रतिसाद वेळ (सरासरी)…
522आउटपुट टोकन्स…
0रिझनिंग टोकन्स…
OpenAI: GPT-5.2
10.0सर्व बेंचमार्क चाचण्यांमधील सरासरी गुण.…
1.6सुसंगतता गुण रन्समधील स्थिरता दाखवतो (10 = अतिशय सुसंगत, सतत चूक असली तरी).…
66.7%प्रति प्रयत्न पास दर = पास प्रयत्न / सर्व रन्समधील एकूण प्रयत्न.…
1अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).…
एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.उत्तर नाही: 1प्रतिसाद वेळ (सरासरी)10.30sप्रतिसाद वेळ (कमाल)10.30sप्रतिसाद वेळ (एकूण)10.30sएखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.…