#40

Claude Opus 4.6

Anthropic प्रकाशन: 2026-02-05 चाचणी तारीख: 2026-06-04 13:45 anthropic/claude-opus-4.6::medium

सारांश

Claude Opus 4.6 AI BENCHY वर 7.7 स्कोर करते आणि #40 वर आहे. याची reliability 10.0, pass rate 61.9%, एकूण खर्च $2.053, आणि सरासरी response time 25.89s आहे.

स्कोअर

7.7

सुसंगतता

8.8

विश्वसनीयता

10.0

एकूण खर्च (सध्याची किंमत)

$2.053

एकूण आउटपुट टोकन्स

71,446

एकूण इनपुट टोकन्स

53,227

इनपुट किंमत

$5.000 / 1M

आउटपुट किंमत

$25.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 9

प्रति प्रयत्न पास दर: 61.9%

अस्थिर चाचण्या

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

25.89s

प्रतिसाद वेळ (कमाल): 83.40s

प्रतिसाद वेळ (एकूण): 362.49s

अतिरिक्त फॉरमॅटिंग: 5 चुकीचे उत्तर: 3 सूचनांचे पालन केले नाही: 1

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium

अवैध SVG

खर्च: $0.000
वेळ: 300.0s
टोकन्स: 0 tok

रन इतिहास

चाचणी तारीख	स्कोअर	विश्वसनीयता	एकूण खर्च	तुलना करा
2026-06-04 13:45 नवीन चाचणी जोडली	7.0	10.0	$2.053	सध्याची रन
2026-05-22 00:17 सूट बदलला	7.2	10.0	$1.896	तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन	7.6	लागू नाही	$1.446	तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख	इनपुट किंमत	आउटपुट किंमत
2026-06-04 15:40	$5.000 / 1M	$25.000 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

Claude Opus 4.6mediumvsClaude Opus 4.8low Claude Opus 4.6mediumvsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow Claude Opus 4.6mediumvsKimi K2.6mediumमोफत उपलब्ध Claude Opus 4.6mediumvsMiniMax M3medium Claude Opus 4.6mediumvsGemini 3.5 Flashhigh Claude Opus 4.6mediumvsGemini 3 Flash Previewmedium Claude Opus 4.6mediumvsNemotron 3 Ultra 550b A55bmediumमोफत उपलब्ध Claude Opus 4.6mediumvsGPT-5.5low

श्रेणीवार तपशील

श्रेणी	स्कोअर	सुसंगतता
अँटी-एआय युक्त्या	6.4	5.8
कोडिंग	5.7	7.1
संयुक्त	10.0	10.0
डेटा पार्सिंग आणि निष्कर्षण	10.0	10.0
डोमेन-विशिष्ट	3.0	10.0
Samanya Buddhimatta	10.0	10.0
सूचनांचे पालन	10.0	10.0
कोडी सोडवणे	7.7	10.0
टूल कॉलिंग	10.0	10.0
सामान्य ज्ञान	3.0	10.0

Claude Opus 4.6

Hamster playing table tennis

#40 Claude Opus 4.6

चार्ट्स

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर vs एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

तुलना केलेली मॉडेल्स