नेविगेशन
AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
Your ad here

AI BENCHY तुलना

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-06

मेट्रिक Anthropic: Claude Opus 4.6 medium रिलीज़: 2026-02-05 OpenAI: GPT-5.3 Chat none रिलीज़: 2026-03-03
औसत स्कोर 6.4 7.5
रैंक #31 #20
सही परीक्षण
संगति 8.9 8.4
प्रति परिणाम लागत 14.411 3.110
कुल लागत $1.297 $0.311
प्रति प्रयास पास दर 64.4% 75.6%
अस्थिर टेस्ट 2 3
common.totalRuns 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 26,066 18,953
रीजनिंग टोकन 17,071 0
प्रतिक्रिया समय (औसत) 25.08s 6.22s
प्रतिक्रिया समय (अधिकतम) 83.40s 18.33s
प्रतिक्रिया समय (कुल) 200.67s 93.31s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
OpenAI: GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
OpenAI: GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
OpenAI: GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
OpenAI: GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0

त्वरित तुलना

तुलना जोड़ी बदलें