نیویگیشن
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.5

خلاصہ

Claude Opus 4.8 vs Kimi K2.5 benchmark موازنہ: Claude Opus 4.8 average score میں آگے ہے: 7.0 vs 6.8. Kimi K2.5 کی benchmark لاگت کم ہے: $0.328 vs $0.539. Claude Opus 4.8 تیز ہے: 3.47s vs 98.43s، pass rates 61.9% vs 68.3%.

تجویز کردہ ماڈل: Claude Opus 4.8 - It has the best score here (7.0), while responding about 28.4x faster than Kimi K2.5.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-04

میٹرک Claude Opus 4.8 Claude Opus 4.8 none اجرا: 2026-05-28 Kimi K2.5 Kimi K2.5 medium اجرا: 2026-01-27
اسکور 7.0 6.8
درجہ #68 #76
اعتماد پذیری 10.0 10.0
تسلسل 9.2 6.9
درست ٹیسٹس
فی کوشش کامیابی کی شرح 61.9% 68.3%
غیر مستحکم ٹیسٹ 2 8
کل رنز 63 63
فی نتیجہ لاگت 4.485 3.704
کل لاگت $0.539 $0.328
ان پٹ قیمت $5.000 / 1M $0.400 / 1M
آؤٹ پٹ قیمت $25.000 / 1M $1.900 / 1M
کل ان پٹ ٹوکنز 67,104 34,312
آؤٹ پٹ ٹوکنز 8,107 48,379
ریزننگ ٹوکنز 0 157,747
ردِعمل کا وقت (اوسط) 3.47s 98.43s
ردِعمل کا وقت (زیادہ سے زیادہ) 17.73s 281.00s
ردِعمل کا وقت (کل) 72.90s 1378.03s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#68 Claude Opus 4.8

none
Cost
$0.053
Time
22.0s
Tokens
2,253 tok

#76 MoonshotAI: Kimi K2.5

medium
Cost
$0.030
Time
58.6s
Tokens
8,683 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 834 1,472 0
Kimi K2.5 7.3 5.8 83.3% 2 51.38s 634 2,789 8,880
کوڈنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 5.5 10.0 33.3% 0 3.29s 10,590 1,332 0
Kimi K2.5 6.1 4.6 66.7% 2 217.49s 6,935 5,705 74,693
مشترکہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 29,658 3,259 0
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 11,280 703 3,713
ڈیٹا پارسنگ اور استخراج اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 10,503 308 0
Kimi K2.5 10.0 10.0 100.0% 0 49.78s 7,020 563 7,940
ڈومین مخصوص اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 975 61 0
Kimi K2.5 3.5 4.4 33.3% 2 137.29s 485 20,753 30,564
عمومی ذہانت اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 708 230 0
Kimi K2.5 6.5 3.4 66.7% 1 69.73s 480 3,815 4,262
ہدایات کی پیروی اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 909 95 0
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 675 5,371 6,547
پہیلی حل کرنا اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 894 783 0
Kimi K2.5 5.3 7.3 44.4% 1 43.23s 659 8,426 12,692
ٹول کالنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 11,775 355 0
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 5,933 242 812
معلومات عامہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 258 212 0
Kimi K2.5 3.0 10.0 0.0% 0 83.95s 211 12 7,644

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں