AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs xAI: Grok Build 0.1

सारांश

Claude Opus 4.8 vs Grok Build 0.1 benchmark तुलना: Grok Build 0.1 average score में आगे है: 7.6 vs 7.2. Claude Opus 4.8 की benchmark लागत कम है: $0.539 vs $0.927. Claude Opus 4.8 तेज है: 3.47s vs 49.90s, pass rates 61.9% vs 61.9%.

अनुशंसित मॉडल: Claude Opus 4.8 - Its score stays close to the best score here (7.2 vs 7.6), while costing about 1.7x less than Grok Build 0.1.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-18

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none रिलीज़: 2026-05-28	Grok Build 0.1 Grok Build 0.1 medium रिलीज़: 2026-05-21
स्कोर	7.2	7.6
रैंक	#57	#42
विश्वसनीयता	10.0	10.0
संगति	9.2	9.9
सही परीक्षण
प्रति प्रयास पास दर	61.9%	61.9%
अस्थिर टेस्ट	2	0
कुल रन	63	63
प्रति परिणाम लागत	4.485	7.124
कुल लागत	$0.539	$0.927
इनपुट कीमत	$5.000 / 1M	$1.000 / 1M
आउटपुट कीमत	$25.000 / 1M	$2.000 / 1M
कुल इनपुट टोकन	67,104	44,418
आउटपुट टोकन	8,107	2,782
रीजनिंग टोकन	0	438,018
प्रतिक्रिया समय (औसत)	3.47s	49.90s
प्रतिक्रिया समय (अधिकतम)	17.73s	252.69s
प्रतिक्रिया समय (कुल)	72.90s	1047.92s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#57 Claude Opus 4.8

none

लागत: $0.053
समय: 22.0s
टोकन: 2,253 tok

#42 xAI: Grok Build 0.1

medium

लागत: $0.028
समय: 81.3s
टोकन: 14,009 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	2,010	220	12,162

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Grok Build 0.1	5.7	9.7	33.3%	0		108.46s	8,304	1,138	161,452

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	12,909	231	16,917

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	7,761	180	8,876

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	1,764	492	175,294

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	825	76	6,345

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	1,362	57	9,599

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	1,689	195	20,841

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	7,263	180	4,969

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	531	13	21,563

त्वरित तुलना

तुलना जोड़ी बदलें