नेविगेशन
AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY तुलना

OpenAI: GPT-5.3-Codex vs OpenAI: GPT-5.4

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-06

मेट्रिक OpenAI: GPT-5.3-Codex medium रिलीज़: 2026-02-05 OpenAI: GPT-5.4 medium रिलीज़: 2026-03-05
औसत स्कोर 8.7 8.2
रैंक #4 #7
सही परीक्षण
संगति 9.0 8.9
प्रति परिणाम लागत 4.418 6.533
कुल लागत $0.531 $0.784
प्रति प्रयास पास दर 88.9% 86.7%
अस्थिर टेस्ट 2 2
common.totalRuns 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 1,577 1,611
रीजनिंग टोकन 33,017 46,321
प्रतिक्रिया समय (औसत) 17.37s 21.06s
प्रतिक्रिया समय (अधिकतम) 100.93s 100.41s
प्रतिक्रिया समय (कुल) 260.52s 315.95s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 10.0 10.0 100.0% 0 4.69s 216 1,421
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 10.0 10.0 100.0% 0 19.56s 364 2,731
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 9.9 10.0 100.0% 0 3.07s 234 728
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 4.0 7.2 55.6% 1 64.31s 64 25,308
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 10.0 10.0 100.0% 0 3.04s 93 693
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 9.3 7.9 88.9% 1 5.12s 352 1,644
OpenAI: GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
OpenAI: GPT-5.3-Codex 10.0 10.0 100.0% 0 6.37s 254 492
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

त्वरित तुलना

तुलना जोड़ी बदलें