#38

Claude Opus 4.8

Anthropic रिलीज़: 2026-05-28 परीक्षण किया गया: 2026-06-30 22:08 anthropic/claude-opus-4.8::low

(medium) (low) (none)

सारांश

Claude Opus 4.8 AI BENCHY पर 7.7 स्कोर करता है और #38 पर है। इसकी reliability 10.0, pass rate 79.4%, कुल लागत $1.270, और औसत response time 10.83s है।

Claude Opus 4.8 को अलग क्या बनाता है: यह पहेली समाधान में सबसे अलग दिखता है, जहाँ इसकी रैंक #1 है; जबकि डेटा पार्सिंग और निष्कर्षण इसकी सबसे कमजोर जगह है, जहाँ यह #17 पर है।

स्कोर

7.7

संगति

8.8

विश्वसनीयता

10.0

कुल लागत (वर्तमान कीमत)

$1.270

कुल आउटपुट टोकन

38,602

कुल इनपुट टोकन

60,946

इनपुट कीमत

$5.000 / 1M

आउटपुट कीमत

$25.000 / 1M

सही परीक्षण

गलत टेस्ट: 6

प्रति प्रयास पास दर: 79.4%

अस्थिर टेस्ट

अस्थिर टेस्ट में रनों के बीच मिले-जुले परिणाम रहे (कम से कम एक पास और एक फेल)।

प्रतिक्रिया समय (औसत)

10.83s

प्रतिक्रिया समय (अधिकतम): 127.97s

प्रतिक्रिया समय (कुल): 227.39s

गलत उत्तर: 4 अतिरिक्त फॉर्मेटिंग: 1 कोई उत्तर नहीं: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

लागत: $0.031
समय: 14.1s
टोकन: 1,345 tok

कीमत का इतिहास

OpenRouter से इस मॉडल का ऐतिहासिक मूल्य डेटा।

तारीख	इनपुट कीमत	आउटपुट कीमत
2026-06-30 22:09	$5.000 / 1M	$25.000 / 1M

चार्ट

पहले मॉडल चुनें, फिर दूसरा मॉडल क्लिक करके साइड-बाय-साइड पेज खोलें।

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

Claude Opus 4.8lowvsKimi K2.6mediumनिःशुल्क उपलब्ध Claude Opus 4.8lowvsGemini 3.1 Flash Litemedium Claude Opus 4.8lowvsGrok 4.3medium Claude Opus 4.8lowvsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8lowvsClaude Opus 4.6medium Claude Opus 4.8lowvsGemini 3.5 Flashhigh Claude Opus 4.8lowvsGemini 3 Flash Previewmedium Claude Opus 4.8lowvsNemotron 3 Ultra 550b A55bmediumनिःशुल्क उपलब्ध Claude Opus 4.8lowvsGPT-5.5low

श्रेणी विवरण

श्रेणी	स्कोर	संगति
एंटी-एआई ट्रिक्स	10.0	10.0
कोडिंग	6.6	4.6
संयुक्त	9.8	10.0
डेटा पार्सिंग और निष्कर्षण	6.3	5.8
डोमेन-विशिष्ट	5.3	10.0
Samanya Buddhimatta	10.0	10.0
निर्देश पालन	9.8	10.0
पहेली समाधान	10.0	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Claude Opus 4.8

Hamster playing table tennis

#38 Claude Opus 4.8

चार्ट

स्कोर के अनुसार शीर्ष मॉडल

स्कोर vs कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

त्वरित तुलना

श्रेणी विवरण

तुलना किए गए मॉडल