Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.4

Claude Opus 4.8 (medium) average score में आगे है: 8.8 vs 8.5. GPT-5.4 (medium) की benchmark लागत कम है: $1.533 vs $1.931. Claude Opus 4.8 (medium) तेज है: 12.49s vs 23.10s, pass rates 84.9% vs 77.3%.

अनुशंसित मॉडलClaude Opus 4.8 (medium)It has the best score here (8.8), while responding about 1.9x faster than GPT-5.4 (medium).

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-07-22

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 medium रिलीज़: 2026-05-28	GPT-5.4 GPT-5.4 medium रिलीज़: 2026-03-05

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 medium रिलीज़: 2026-05-28	GPT-5.4 GPT-5.4 medium रिलीज़: 2026-03-05
स्कोर	8.8	8.5
रैंक	#17	#21
विश्वसनीयता	10.0	10.0
संगति	9.6	8.6
सही परीक्षण
प्रति प्रयास पास दर	84.9%	77.3%
अस्थिर टेस्ट	1	4
कुल रन	66	66
प्रति परिणाम लागत	10.724	10.220
कुल लागत	$1.931	$1.533
इनपुट कीमत	$5.000 / 1M	$2.500 / 1M
आउटपुट कीमत	$25.000 / 1M	$15.000 / 1M
कुल इनपुट टोकन	138,451	81,127
आउटपुट टोकन	40,766	6,155
रीजनिंग टोकन	9,075	82,515
प्रतिक्रिया समय (औसत)	12.49s	23.10s
प्रतिक्रिया समय (अधिकतम)	70.54s	100.41s
प्रतिक्रिया समय (कुल)	274.72s	508.26s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#17 Claude Opus 4.8

medium

लागत: $0.057
समय: 23.1s
टोकन: 2,412 tok

#21 GPT-5.4

medium

लागत: $0.214
समय: 199.6s
टोकन: 14,349 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

श्रेणी:

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.9	10.0	100.0%	0		54.29s	101,005	19,531	4,762
GPT-5.4	10.0	10.0	100.0%	0		29.77s	58,038	4,214	13,351

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	10.0	33.3%	0		14.59s	975	7,477	900
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.8mediumvsGrok 4.5high Claude Opus 4.8mediumvsGemini 3.5 Flashlow GPT-5.4mediumvsGrok 4.5low Muse Spark 1.1lowvsGPT-5.4medium GPT-5.4mediumvsGrok 4.5high Gemini 3.5 FlashlowvsGPT-5.4medium Muse Spark 1.1highvsGPT-5.4medium Claude Opus 4.8mediumvsGrok 4.5low Gemini 3.5 Flash-LitehighvsGPT-5.4medium GPT-5.4mediumvsInklinghigh Claude Opus 4.8mediumvsGPT-5.5low GPT-5.4mediumvsGLM 5.2high