AI BENCHY तुलना

StepFun: Step 3.7 Flash vs xAI: Grok Build 0.1

सारांश

Step 3.7 Flash vs Grok Build 0.1 benchmark तुलना: Grok Build 0.1 average score में आगे है: 7.6 vs 7.1. Grok Build 0.1 की benchmark लागत कम है: $0.927 vs $1.148. Grok Build 0.1 तेज है: 49.90s vs 64.46s, pass rates 63.5% vs 61.9%.

अनुशंसित मॉडल: Grok Build 0.1 - It has the strongest score in this comparison (7.6) and the best overall balance of cost and response time across all 2 models.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-02

मेट्रिक	Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21

मेट्रिक	Step 3.7 Flash Step 3.7 Flash high रिलीज़: 2026-05-29	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21
स्कोर	7.1	7.6
रैंक	#65	#44
विश्वसनीयता	10.0	10.0
संगति	8.2	9.9
सही परीक्षण
प्रति प्रयास पास दर	63.5%	61.9%
अस्थिर टेस्ट	4	0
कुल रन	63	63
प्रति परिणाम लागत	10.434	7.124
कुल लागत	$1.148	$0.927
इनपुट कीमत	$0.200 / 1M	$1.000 / 1M
आउटपुट कीमत	$1.150 / 1M	$2.000 / 1M
कुल इनपुट टोकन	38,391	44,418
आउटपुट टोकन	991,355	2,782
रीजनिंग टोकन	0	438,018
प्रतिक्रिया समय (औसत)	64.46s	49.90s
प्रतिक्रिया समय (अधिकतम)	364.99s	252.69s
प्रतिक्रिया समय (कुल)	1353.57s	1047.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#65 Step 3.7 Flash

high

लागत: $0.007
समय: 63.6s
टोकन: 6,030 tok

#44 xAI: Grok Build 0.1

medium

लागत: $0.028
समय: 81.3s
टोकन: 14,009 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	10.0	10.0	100.0%	0		13.40s	696	42,656	0
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	4.0	6.0	22.2%	1		206.21s	6,057	327,340	0
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	10.0	10.0	100.0%	0		13.01s	13,638	8,802	0
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	12,909	231	16,917

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	10.0	10.0	100.0%	0		14.72s	7,368	23,113	0
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	4.1	4.4	44.5%	2		149.64s	783	410,502	0
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	5.5	10.0	0.0%	0		4.17s	510	2,862	0
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	9.8	10.0	100.0%	0		1.52s	705	2,010	0
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	5.3	7.2	44.4%	1		10.22s	711	25,422	0
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	10.0	10.0	100.0%	0		2.79s	7,701	1,172	0
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Step 3.7 Flash	3.0	10.0	0.0%	0		149.34s	222	147,476	0
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

त्वरित तुलना

तुलना जोड़ी बदलें

Step 3.7 FlashhighvsGLM 5.1medium DeepSeek V4 ProhighvsGrok Build 0.1medium Laguna XS 2.1mediumनिःशुल्क उपलब्धvsStep 3.7 Flashhigh Step 3.7 FlashhighvsGLM 5.2none Qwen3.7 PlusnonevsStep 3.7 Flashhigh Kimi K2.7 CodemediumvsStep 3.7 Flashhigh GPT-5.3 ChatnonevsGrok Build 0.1medium Gemma 4 26B A4Bmediumनिःशुल्क उपलब्धvsStep 3.7 Flashhigh DeepSeek V4 PrononevsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsStep 3.7 Flashhigh Step 3.7 FlashlowvsGrok Build 0.1medium Claude Opus 4.8nonevsStep 3.7 Flashhigh