नेव्हिगेशन
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

StepFun: Step 3.5 Flash vs xAI: Grok 4.20 Beta

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-03-12

मेट्रिक Step 3.5 Flash Step 3.5 Flash medium प्रकाशन: 2026-02-01 मोफत उपलब्ध Grok 4.20 Beta Grok 4.20 Beta none प्रकाशन: 2026-03-12
क्रमांक #14 #52
सरासरी स्कोअर 7.4 4.4
सुसंगतता 9.1 9.1
प्रति निकाल खर्च 0.000 2.214
एकूण खर्च $0.000 $0.089
बरोबर चाचण्या
प्रति प्रयत्न पास दर 68.8% 33.3%
अस्थिर चाचण्या 2 2
एकूण रन 48 48
आउटपुट टोकन्स 71,452 1,511
रिझनिंग टोकन्स 155,147 0
प्रतिसाद वेळ (सरासरी) 29.10s 1.22s
प्रतिसाद वेळ (कमाल) 170.45s 6.48s
प्रतिसाद वेळ (एकूण) 290.96s 19.53s

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

सरासरी स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

सरासरी स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 10.0 10.0 100.0% 0 18.54s 13,924 17,208
Grok 4.20 Beta 3.3 7.9 22.2% 1 562ms 245 0
संयुक्त स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 1,176 12,984
Grok 4.20 Beta 10.0 10.0 0.0% 0 6.48s 282 0
डेटा पार्सिंग आणि निष्कर्षण स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 600 13,886
Grok 4.20 Beta 9.9 10.0 100.0% 0 601ms 197 0
डोमेन-विशिष्ट स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 4.0 7.2 44.4% 1 170.45s 45,350 90,436
Grok 4.20 Beta 10.0 10.0 0.0% 0 611ms 160 0
Samanya Buddhimatta स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 6.0 10.0 0.0% 0 6.54s 2,214 2,584
Grok 4.20 Beta 5.0 10.0 0.0% 0 541ms 87 0
सूचनांचे पालन स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 9.0 6.8 83.3% 1 4.98s 2,284 3,412
Grok 4.20 Beta 4.5 10.0 0.0% 0 687ms 60 0
Puzzle Solving स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 4.0 10.0 33.3% 0 7.72s 5,629 10,835
Grok 4.20 Beta 4.0 7.2 55.6% 1 541ms 291 0
टूल कॉलिंग स्कोअर सुसंगतता प्रति प्रयत्न पास दर अस्थिर चाचण्या बरोबर चाचण्या प्रतिसाद वेळ (सरासरी) आउटपुट टोकन्स रिझनिंग टोकन्स
Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 275 3,802
Grok 4.20 Beta 10.0 10.0 100.0% 0 4.79s 189 0

झटपट तुलना

तुलना जोडी बदला