नेविगेशन
AI BENCHY
Your ad here

AI BENCHY तुलना

तुलना किए गए मॉडल

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-12

मेट्रिक GPT-5.2 GPT-5.2 medium रिलीज़: 2025-12-11 GPT-5.3 Chat GPT-5.3 Chat none रिलीज़: 2026-03-03 GPT-5.4 GPT-5.4 none रिलीज़: 2026-03-05
रैंक #29 #20 #51
औसत स्कोर 6.5 7.3 4.5
संगति 7.9 8.5 8.9
प्रति परिणाम लागत 3.125 3.163 1.562
कुल लागत $0.313 $0.317 $0.094
सही परीक्षण
प्रति प्रयास पास दर 75.0% 70.8% 41.7%
अस्थिर टेस्ट 4 3 2
कुल रन 48 48 48
आउटपुट टोकन 2,220 19,272 1,819
रीजनिंग टोकन 16,811 0 0
प्रतिक्रिया समय (औसत) 15.33s 5.96s 1.48s
प्रतिक्रिया समय (अधिकतम) 77.80s 18.33s 2.89s
प्रतिक्रिया समय (कुल) 138.01s 95.30s 23.64s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

औसत स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 7.0 7.3 77.8% 1 14.34s 549 2,002
GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
GPT-5.4 10.0 7.3 11.1% 1 1.41s 388 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 10.0 10.0 100.0% 0 14.06s 291 1,757
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
GPT-5.4 10.0 10.0 0.0% 0 2.89s 291 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 9.9 10.0 100.0% 0 3.15s 234 420
GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
GPT-5.4 9.9 10.0 100.0% 0 1.04s 222 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 4.0 7.2 55.6% 1 77.80s 42 10,342
GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
GPT-5.4 4.0 7.2 44.4% 1 1.07s 50 0
Samanya Buddhimatta स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 10.0 9.7 0.0% 0 4.32s 162 269
GPT-5.3 Chat 4.0 10.0 0.0% 0 1.99s 319 0
GPT-5.4 3.0 9.9 0.0% 0 1.78s 184 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 9.5 10.0 100.0% 0 3.12s 94 614
GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
GPT-5.4 5.5 10.0 50.0% 0 1.07s 81 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 7.0 7.3 77.8% 1 5.47s 609 938
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
GPT-5.4 4.0 9.8 33.3% 0 1.52s 357 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
GPT-5.2 10.0 1.6 66.7% 1 10.30s 239 469
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0
GPT-5.4 10.0 10.0 100.0% 0 2.75s 246 0

त्वरित तुलना

तुलना जोड़ी बदलें