AI BENCHY तुलना

Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.5

सारांश

Claude Opus 4.8 vs Kimi K2.5 benchmark तुलना: Claude Opus 4.8 average score में आगे है: 7.7 vs 7.5. Kimi K2.5 की benchmark लागत कम है: $0.348 vs $1.270. Claude Opus 4.8 तेज है: 10.83s vs 98.43s, pass rates 79.4% vs 68.3%.

अनुशंसित मॉडल: Claude Opus 4.8 - It has the best score here (7.7), while responding about 9.1x faster than Kimi K2.5.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-30

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 low रिलीज़: 2026-05-28	Kimi K2.5 Kimi K2.5 medium रिलीज़: 2026-01-27

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 low रिलीज़: 2026-05-28	Kimi K2.5 Kimi K2.5 medium रिलीज़: 2026-01-27
स्कोर	7.7	7.5
रैंक	#38	#45
विश्वसनीयता	10.0	10.0
संगति	8.8	6.9
सही परीक्षण
प्रति प्रयास पास दर	79.4%	68.3%
अस्थिर टेस्ट	3	8
कुल रन	63	63
प्रति परिणाम लागत	8.466	3.704
कुल लागत	$1.270	$0.348
इनपुट कीमत	$5.000 / 1M	$0.375 / 1M
आउटपुट कीमत	$25.000 / 1M	$2.025 / 1M
कुल इनपुट टोकन	60,946	34,312
आउटपुट टोकन	31,771	48,379
रीजनिंग टोकन	6,831	157,747
प्रतिक्रिया समय (औसत)	10.83s	98.43s
प्रतिक्रिया समय (अधिकतम)	127.97s	281.00s
प्रतिक्रिया समय (कुल)	227.39s	1378.03s

जनरेशन शोकेस

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

लागत: $0.031
समय: 14.1s
टोकन: 1,345 tok

#45 MoonshotAI: Kimi K2.5

medium

लागत: $0.030
समय: 58.6s
टोकन: 8,683 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

त्वरित तुलना

तुलना जोड़ी बदलें