नेव्हिगेशन
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs StepFun: Step 3.7 Flash

सारांश

Claude Opus 4.6 vs Step 3.7 Flash benchmark तुलना: Step 3.7 Flash average score मध्ये पुढे आहे: 7.3 vs 7.0. Step 3.7 Flash चा benchmark खर्च कमी आहे: $0.341 vs $2.053. Step 3.7 Flash वेगवान आहे: 15.74s vs 25.89s, pass rates 61.9% vs 68.3%.

शिफारस केलेले मॉडेल: Step 3.7 Flash - It has the best score here (7.3), while costing about 6.0x less than Claude Opus 4.6.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-04

मेट्रिक Claude Opus 4.6 Claude Opus 4.6 medium प्रकाशन: 2026-02-05 Step 3.7 Flash Step 3.7 Flash low प्रकाशन: 2026-05-29
स्कोअर 7.0 7.3
क्रमांक #69 #57
विश्वसनीयता 10.0 10.0
सुसंगतता 8.8 8.4
बरोबर चाचण्या
प्रति प्रयत्न पास दर 61.9% 68.3%
अस्थिर चाचण्या 3 4
एकूण रन 63 63
प्रति निकाल खर्च 17.103 2.840
एकूण खर्च $2.053 $0.341
इनपुट किंमत $5.000 / 1M $0.200 / 1M
आउटपुट किंमत $25.000 / 1M $1.150 / 1M
एकूण इनपुट टोकन्स 53,227 40,101
आउटपुट टोकन्स 47,446 289,325
रिझनिंग टोकन्स 24,000 0
प्रतिसाद वेळ (सरासरी) 25.89s 15.74s
प्रतिसाद वेळ (कमाल) 83.40s 124.75s
प्रतिसाद वेळ (एकूण) 362.49s 330.63s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#69 Claude Opus 4.6

medium
Invalid SVG
Cost
$0.000
Time
300.0s
Tokens
0 tok

#57 Step 3.7 Flash

low
Invalid SVG
Cost
$0.004
Time
25.3s
Tokens
3,072 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 6.4 5.8 66.7% 2 7.45s 840 986 1,071
Step 3.7 Flash 8.7 7.9 91.7% 1 4.02s 756 10,896 0
कोडिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 5.7 7.1 44.4% 1 30.10s 8,522 13,057 4,121
Step 3.7 Flash 8.2 7.2 88.9% 1 9.46s 7,437 18,685 0
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 20,685 8,178 5,194
Step 3.7 Flash 10.0 10.0 100.0% 0 7.98s 13,683 6,426 0
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 10.0 10.0 100.0% 0 7.37s 8,676 691 757
Step 3.7 Flash 7.3 5.8 83.3% 1 2.29s 7,398 2,667 0
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 3.0 10.0 0.0% 0 83.40s 674 14,642 8,687
Step 3.7 Flash 5.3 7.2 44.4% 1 43.31s 828 104,487 0
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 564 188 292
Step 3.7 Flash 3.4 9.3 0.0% 0 7.00s 525 4,604 0
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 792 266 467
Step 3.7 Flash 9.8 10.0 100.0% 0 1.58s 735 1,857 0
कोडी सोडवणे स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 7.7 10.0 66.7% 0 4.71s 816 532 630
Step 3.7 Flash 5.5 9.9 33.3% 0 1.84s 756 3,564 0
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 11,454 861 329
Step 3.7 Flash 10.0 10.0 100.0% 0 3.25s 7,746 1,360 0
सामान्य ज्ञान स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) इनपुट टोकन्स आउटपुट टोकन्स रिझनिंग टोकन्स
Claude Opus 4.6 3.0 10.0 0.0% 0 63.24s 204 8,045 2,452
Step 3.7 Flash 3.0 10.0 0.0% 0 124.75s 237 134,779 0

झटपट तुलना

तुलना जोडी बदला