AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.5

सारांश

Claude Opus 4.8 vs Kimi K2.5 benchmark तुलना: Claude Opus 4.8 average score मध्ये पुढे आहे: 7.0 vs 6.8. Kimi K2.5 चा benchmark खर्च कमी आहे: $0.328 vs $0.539. Claude Opus 4.8 वेगवान आहे: 3.47s vs 98.43s, pass rates 61.9% vs 68.3%.

शिफारस केलेले मॉडेल: Claude Opus 4.8 - It has the best score here (7.0), while responding about 28.4x faster than Kimi K2.5.

AI BENCHY टेस्ट सूटमधून बेंचमार्क या वेळी तयार झाले: 2026-06-04

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none प्रकाशन: 2026-05-28	Kimi K2.5 Kimi K2.5 medium प्रकाशन: 2026-01-27

मेट्रिक	Claude Opus 4.8 Claude Opus 4.8 none प्रकाशन: 2026-05-28	Kimi K2.5 Kimi K2.5 medium प्रकाशन: 2026-01-27
स्कोअर	7.0	6.8
क्रमांक	#68	#76
विश्वसनीयता	10.0	10.0
सुसंगतता	9.2	6.9
बरोबर चाचण्या
प्रति प्रयत्न पास दर	61.9%	68.3%
अस्थिर चाचण्या	2	8
एकूण रन	63	63
प्रति निकाल खर्च	4.485	3.704
एकूण खर्च	$0.539	$0.328
इनपुट किंमत	$5.000 / 1M	$0.400 / 1M
आउटपुट किंमत	$25.000 / 1M	$1.900 / 1M
एकूण इनपुट टोकन्स	67,104	34,312
आउटपुट टोकन्स	8,107	48,379
रिझनिंग टोकन्स	0	157,747
प्रतिसाद वेळ (सरासरी)	3.47s	98.43s
प्रतिसाद वेळ (कमाल)	17.73s	281.00s
प्रतिसाद वेळ (एकूण)	72.90s	1378.03s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#68 Claude Opus 4.8

none

Cost: $0.053
Time: 22.0s
Tokens: 2,253 tok

#76 MoonshotAI: Kimi K2.5

medium

Cost: $0.030
Time: 58.6s
Tokens: 8,683 tok

स्कोअरनुसार शीर्ष मॉडेल्स

स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी)

स्कोअर vs प्रतिसाद वेळ (सरासरी)

एकूण आउटपुट टोकन्स

स्कोअर vs एकूण आउटपुट टोकन्स

श्रेणीवार तपशील

अँटी-एआय युक्त्या	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880

कोडिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693

संयुक्त	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	11,280	703	3,713

डेटा पार्सिंग आणि निष्कर्षण	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940

डोमेन-विशिष्ट	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	975	61	0
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564

Samanya Buddhimatta	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262

सूचनांचे पालन	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547

कोडी सोडवणे	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692

टूल कॉलिंग	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812

सामान्य ज्ञान	स्कोअर	सुसंगतता	प्रति प्रयत्न पास दर	अस्थिर चाचण्या	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)	इनपुट टोकन्स	आउटपुट टोकन्स	रिझनिंग टोकन्स
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644

झटपट तुलना

तुलना जोडी बदला

Claude Opus 4.8nonevsMiniMax M3medium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsQwen3.6 Max Previewnone Claude Opus 4.8nonevsDeepSeek V3.2medium Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsGrok 4.20medium Claude Opus 4.8nonevsMiMo-V2-Flashmedium Claude Opus 4.8nonevsSeed-2.0-Minimedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGemini 3.1 Flash Litelow