AI BENCHY तुलना

MiniMax: MiniMax M3 vs xAI: Grok Build 0.1

सारांश

MiniMax M3 vs Grok Build 0.1 benchmark तुलना: average score लगभग बराबर है: 7.6 vs 7.6. MiniMax M3 की benchmark लागत कम है: $0.131 vs $0.927. Grok Build 0.1 तेज है: 49.90s vs 68.17s, pass rates 65.1% vs 61.9%.

अनुशंसित मॉडल: MiniMax M3 - It has the best score here (7.6), while costing about 7.1x less than Grok Build 0.1.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-02

मेट्रिक	MiniMax M3 MiniMax M3 medium रिलीज़: 2026-06-01	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21

मेट्रिक	MiniMax M3 MiniMax M3 medium रिलीज़: 2026-06-01	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21
स्कोर	7.6	7.6
रैंक	#42	#44
विश्वसनीयता	9.6	10.0
संगति	7.9	9.9
सही परीक्षण
प्रति प्रयास पास दर	65.1%	61.9%
अस्थिर टेस्ट	5	0
कुल रन	63	63
प्रति परिणाम लागत	1.187	7.124
कुल लागत	$0.131	$0.927
इनपुट कीमत	$0.300 / 1M	$1.000 / 1M
आउटपुट कीमत	$1.200 / 1M	$2.000 / 1M
कुल इनपुट टोकन	46,546	44,418
आउटपुट टोकन	49,036	2,782
रीजनिंग टोकन	92,543	438,018
प्रतिक्रिया समय (औसत)	68.17s	49.90s
प्रतिक्रिया समय (अधिकतम)	431.03s	252.69s
प्रतिक्रिया समय (कुल)	1363.38s	1047.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#42 MiniMax M3

medium

लागत: $0.012
समय: 154.4s
टोकन: 10,018 tok

#44 xAI: Grok Build 0.1

medium

लागत: $0.028
समय: 81.3s
टोकन: 14,009 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	5.5	3.7	66.7%	3		14.95s	2,526	874	3,414
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	6.1	6.5	55.6%	1		144.74s	5,804	6,223	32,667
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	10.0	10.0	100.0%	0		65.30s	14,760	1,306	6,253
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	12,909	231	16,917

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	10.0	10.0	100.0%	0		14.92s	8,088	514	3,164
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	5.5	9.3	33.3%	0		233.13s	869	16,254	19,070
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	5.1	3.4	33.3%	1		33.25s	954	2,487	2,523
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	9.8	10.0	100.0%	0		6.14s	1,623	103	920
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	7.9	9.9	66.7%	0		49.91s	2,079	11,946	13,761
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	10.0	10.0	100.0%	0		11.91s	9,168	281	555
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
MiniMax M3	3.0	10.0	0.0%	0		100.80s	675	9,048	10,216
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

त्वरित तुलना

तुलना जोड़ी बदलें

DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGrok Build 0.1medium GPT-5.3 ChatnonevsGrok Build 0.1medium MiniMax M3mediumvsStep 3.7 Flashlow MiniMax M3mediumvsGPT-5.3 Chatnone Step 3.7 FlashlowvsGrok Build 0.1medium Claude Opus 4.8lowvsMiniMax M3medium Claude Opus 4.8lowvsGrok Build 0.1medium Gemini 3 Flash PreviewlowvsGrok Build 0.1medium Gemini 3 Flash PreviewlowvsMiniMax M3medium Claude Sonnet 4.6nonevsGrok Build 0.1medium Claude Sonnet 4.6nonevsMiniMax M3medium