نیویگیشن
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Poolside: Laguna XS 2.1

خلاصہ

Claude Opus 4.8 vs Laguna XS 2.1 benchmark موازنہ: Claude Opus 4.8 average score میں آگے ہے: 7.2 vs 7.0. Laguna XS 2.1 کی benchmark لاگت کم ہے: $0.036 vs $0.539. Claude Opus 4.8 تیز ہے: 3.48s vs 30.08s، pass rates 61.9% vs 44.4%.

تجویز کردہ ماڈل: Laguna XS 2.1 - Its score stays close to the best score here (7.0 vs 7.2), while costing about 15.3x less than Claude Opus 4.8.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-07-02

میٹرک Claude Opus 4.8 Claude Opus 4.8 none اجرا: 2026-05-28 Laguna XS 2.1 Laguna XS 2.1 medium اجرا: 2026-07-02 مفت دستیاب
اسکور 7.2 7.0
درجہ #59 #67
اعتماد پذیری 10.0 10.0
تسلسل 9.2 9.6
درست ٹیسٹس
فی کوشش کامیابی کی شرح 61.9% 44.4%
غیر مستحکم ٹیسٹ 2 1
کل رنز 63 63
فی نتیجہ لاگت 4.485 0.392
کل لاگت $0.539 $0.036
ان پٹ قیمت $5.000 / 1M $0.060 / 1M
آؤٹ پٹ قیمت $25.000 / 1M $0.120 / 1M
کل ان پٹ ٹوکنز 67,104 45,324
آؤٹ پٹ ٹوکنز 8,107 25,761
ریزننگ ٹوکنز 0 268,677
ردِعمل کا وقت (اوسط) 3.48s 30.08s
ردِعمل کا وقت (زیادہ سے زیادہ) 17.73s 155.23s
ردِعمل کا وقت (کل) 73.00s 631.77s

جنریشن شوکیس

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#59 Claude Opus 4.8

none
لاگت
$0.053
وقت
22.0s
ٹوکنز
2,253 tok

#67 Laguna XS 2.1

medium
لاگت
$0.001
وقت
30.6s
ٹوکنز
4,678 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 834 1,472 0
Laguna XS 2.1 4.8 10.0 25.0% 0 41.96s 774 353 73,090
کوڈنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 5.5 10.0 33.3% 0 3.29s 10,590 1,332 0
Laguna XS 2.1 5.5 10.0 33.3% 0 70.35s 7,995 23,767 83,258
مشترکہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 29,658 3,259 0
Laguna XS 2.1 9.6 10.0 100.0% 0 13.43s 18,033 507 5,908
ڈیٹا پارسنگ اور استخراج اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 10,503 308 0
Laguna XS 2.1 10.0 10.0 100.0% 0 4.50s 7,734 234 3,129
ڈومین مخصوص اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 5.3 7.2 44.4% 1 1.70s 975 61 0
Laguna XS 2.1 2.9 7.2 11.1% 1 65.66s 834 17 91,533
عمومی ذہانت اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 708 230 0
Laguna XS 2.1 5.0 10.0 0.0% 0 4.15s 537 119 1,375
ہدایات کی پیروی اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 909 95 0
Laguna XS 2.1 9.8 10.0 100.0% 0 2.57s 753 82 1,844
پہیلی حل کرنا اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 894 783 0
Laguna XS 2.1 5.3 10.0 33.3% 0 3.43s 771 357 3,355
ٹول کالنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 11,775 355 0
Laguna XS 2.1 10.0 10.0 100.0% 0 3.01s 7,638 309 748
معلومات عامہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 258 212 0
Laguna XS 2.1 3.0 10.0 0.0% 0 10.88s 255 16 4,437

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں