नेविगेशन
AI BENCHY
तुलना करें चार्ट Karyapranali
❤️ Made by XCS
Your ad here

AI BENCHY तुलना

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.2 Chat

तुलना करें:

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-03-06

मेट्रिक Anthropic: Claude Opus 4.6 medium रिलीज़: 2026-02-05 OpenAI: GPT-5.2 Chat none रिलीज़: 2025-12-11
औसत स्कोर 6.4 7.7
रैंक #31 #12
सही परीक्षण
संगति 8.9 9.5
प्रति परिणाम लागत 14.411 2.389
कुल लागत $1.297 $0.263
प्रति प्रयास पास दर 64.4% 77.8%
अस्थिर टेस्ट 2 1
common.totalRuns 45 (15 x 3) 45 (15 x 3)
आउटपुट टोकन 26,066 15,510
रीजनिंग टोकन 17,071 0
प्रतिक्रिया समय (औसत) 25.08s 7.29s
प्रतिक्रिया समय (अधिकतम) 83.40s 38.52s
प्रतिक्रिया समय (कुल) 200.67s 109.31s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

औसत स्कोर vs प्रतिक्रिया समय (औसत)

श्रेणी विवरण

एंटी-एआई ट्रिक्स स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
OpenAI: GPT-5.2 Chat 10.0 10.0 100.0% 0 3.97s 1,651 0
संयुक्त स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
OpenAI: GPT-5.2 Chat 10.0 10.0 100.0% 0 9.12s 1,243 0
डेटा पार्सिंग और निष्कर्षण स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
OpenAI: GPT-5.2 Chat 9.9 10.0 100.0% 0 3.05s 980 0
डोमेन-विशिष्ट स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
OpenAI: GPT-5.2 Chat 4.0 10.0 33.3% 0 17.78s 7,810 0
निर्देश पालन स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
OpenAI: GPT-5.2 Chat 6.0 6.1 83.3% 1 5.46s 1,528 0
Puzzle Solving स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
OpenAI: GPT-5.2 Chat 7.0 10.0 66.7% 0 4.42s 1,743 0
टूल कॉलिंग स्कोर संगति प्रति प्रयास पास दर अस्थिर टेस्ट सही परीक्षण प्रतिक्रिया समय (औसत) आउटपुट टोकन रीजनिंग टोकन
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
OpenAI: GPT-5.2 Chat 10.0 10.0 100.0% 0 4.68s 555 0

त्वरित तुलना

तुलना जोड़ी बदलें