AI BENCHY
Advertise here
#57

Claude Sonnet 4.6

Anthropic प्रकाशन: 2026-02-17 चाचणी तारीख: 2026-06-04 13:40 anthropic/claude-sonnet-4.6::none
(medium) (none)

सारांश

Claude Sonnet 4.6 AI BENCHY वर 7.3 स्कोर करते आणि #57 वर आहे. याची reliability 10.0, pass rate 55.6%, एकूण खर्च $0.316, आणि सरासरी response time 5.04s आहे.

Claude Sonnet 4.6 खास का आहे: हे डोमेन-विशिष्ट मध्ये सर्वाधिक उठून दिसते, जिथे त्याचा rank #1 आहे; तर अँटी-एआय युक्त्या हा सर्वात कमकुवत भाग आहे, rank #12.

सुसंगतता

9.7

एकूण आउटपुट टोकन्स

9,465

एकूण इनपुट टोकन्स

57,886

इनपुट किंमत

$3.000 / 1M

आउटपुट किंमत

$15.000 / 1M

बरोबर चाचण्या

चुकीच्या चाचण्या: 10

प्रति प्रयत्न पास दर: 55.6%

अस्थिर चाचण्या

1

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

5.04s

प्रतिसाद वेळ (कमाल): 23.84s

प्रतिसाद वेळ (एकूण): 70.60s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Sonnet 4.6

none
खर्च
$0.038
वेळ
27.3s
टोकन्स
2,598 tok

रन इतिहास

चाचणी तारीख स्कोअर विश्वसनीयता बरोबर चाचण्या एकूण खर्च तुलना करा
2026-06-04 13:40 नवीन चाचणी जोडली 6.8 10.0 $0.316 सध्याची रन
2026-05-22 00:12 सूट बदलला 7.0 10.0 $0.306 तुलना करा
2026-04-11 01:44 पहिली नोंदलेली रन 7.4 लागू नाही $0.262 तुलना करा

या रनमध्ये वेगळा बेंचमार्क सूट वापरला गेला. ऐतिहासिक बदल वाचताना सूटमधील बदल लक्षात घ्या.

रन तुलना

रनस्कोअरसुसंगतताविश्वसनीयताबरोबर चाचण्याअस्थिर चाचण्याएकूण आउटपुट टोकन्सएकूण इनपुट टोकन्सएकूण खर्चप्रतिसाद वेळ (सरासरी)
2026-06-04 13:40 · सध्याची रन7.39.710.011/2119,46557,886$0.3165.04s
2026-05-22 00:12 · सूट बदलला7.09.710.011/2019,4530$0.3065.33s
फरक+0.30.00.000+12+57886+$0.010-287ms

या दोन रनमध्ये वेगवेगळे बेंचमार्क सूट वापरले गेले, त्यामुळे फरकांमध्ये मॉडेलमधील आणि सूटमधील दोन्ही बदल दिसतात.

किंमत इतिहास

OpenRouter मधील या मॉडेलचा ऐतिहासिक किंमत डेटा.

तारीख इनपुट किंमत आउटपुट किंमत
2026-06-04 15:40 $3.000 / 1M $15.000 / 1M

चार्ट्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

झटपट तुलना

श्रेणीवार तपशील

श्रेणी स्कोअर सुसंगतता बरोबर चाचण्या
अँटी-एआय युक्त्या 4.8 10.0
कोडिंग 5.5 10.0
संयुक्त 9.5 10.0
डेटा पार्सिंग आणि निष्कर्षण 10.0 10.0
डोमेन-विशिष्ट 7.7 10.0
Samanya Buddhimatta 6.1 3.1
सूचनांचे पालन 6.5 10.0
कोडी सोडवणे 7.7 10.0
टूल कॉलिंग 10.0 10.0
सामान्य ज्ञान 3.0 10.0

तुलना केलेली मॉडेल्स