نیویگیشن
AI BENCHY
Advertise here

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Poolside: Laguna XS 2.1

خلاصہ

GPT-5.3 Chat vs Laguna XS 2.1 benchmark موازنہ: GPT-5.3 Chat average score میں آگے ہے: 7.5 vs 7.0. Laguna XS 2.1 کی benchmark لاگت کم ہے: $0.036 vs $0.433. GPT-5.3 Chat تیز ہے: 6.34s vs 30.08s، pass rates 66.7% vs 44.4%.

تجویز کردہ ماڈل: Laguna XS 2.1 - Its score stays close to the best score here (7.0 vs 7.5), while costing about 12.3x less than GPT-5.3 Chat.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-07-02

میٹرک GPT-5.3 Chat GPT-5.3 Chat none اجرا: 2026-03-03 Laguna XS 2.1 Laguna XS 2.1 medium اجرا: 2026-07-02 مفت دستیاب
اسکور 7.5 7.0
درجہ #47 #67
اعتماد پذیری 10.0 10.0
تسلسل 8.1 9.6
درست ٹیسٹس
فی کوشش کامیابی کی شرح 66.7% 44.4%
غیر مستحکم ٹیسٹ 5 1
کل رنز 63 63
فی نتیجہ لاگت 3.605 0.392
کل لاگت $0.433 $0.036
ان پٹ قیمت $1.750 / 1M $0.060 / 1M
آؤٹ پٹ قیمت $14.000 / 1M $0.120 / 1M
کل ان پٹ ٹوکنز 34,209 45,324
آؤٹ پٹ ٹوکنز 26,617 25,761
ریزننگ ٹوکنز 0 268,677
ردِعمل کا وقت (اوسط) 6.34s 30.08s
ردِعمل کا وقت (زیادہ سے زیادہ) 18.33s 155.23s
ردِعمل کا وقت (کل) 133.13s 631.77s

جنریشن شوکیس

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#47 GPT-5.3 Chat

none
لاگت
$0.008
وقت
8.1s
ٹوکنز
634 tok

#67 Laguna XS 2.1

medium
لاگت
$0.001
وقت
30.6s
ٹوکنز
4,678 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 6.7 8.1 58.3% 1 3.86s 606 3,167 0
Laguna XS 2.1 4.8 10.0 25.0% 0 41.96s 774 353 73,090
کوڈنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 5.6 4.7 55.6% 2 10.52s 7,302 6,632 0
Laguna XS 2.1 5.5 10.0 33.3% 0 70.35s 7,995 23,767 83,258
مشترکہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 11,019 2,614 0
Laguna XS 2.1 9.6 10.0 100.0% 0 13.43s 18,033 507 5,908
ڈیٹا پارسنگ اور استخراج اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.21s 7,140 942 0
Laguna XS 2.1 10.0 10.0 100.0% 0 4.50s 7,734 234 3,129
ڈومین مخصوص اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 3.5 4.4 33.3% 2 13.01s 723 8,264 0
Laguna XS 2.1 2.9 7.2 11.1% 1 65.66s 834 17 91,533
عمومی ذہانت اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 4.6 10.0 0.0% 0 1.99s 477 319 0
Laguna XS 2.1 5.0 10.0 0.0% 0 4.15s 537 119 1,375
ہدایات کی پیروی اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 9.8 10.0 100.0% 0 3.51s 660 1,491 0
Laguna XS 2.1 9.8 10.0 100.0% 0 2.57s 753 82 1,844
پہیلی حل کرنا اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 10.0 10.0 100.0% 0 2.99s 642 1,758 0
Laguna XS 2.1 5.3 10.0 33.3% 0 3.43s 771 357 3,355
ٹول کالنگ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 5,445 861 0
Laguna XS 2.1 10.0 10.0 100.0% 0 3.01s 7,638 309 748
معلومات عامہ اسکور تسلسل فی کوشش کامیابی کی شرح غیر مستحکم ٹیسٹ درست ٹیسٹس ردِعمل کا وقت (اوسط) ان پٹ ٹوکنز آؤٹ پٹ ٹوکنز ریزننگ ٹوکنز
GPT-5.3 Chat 3.0 10.0 0.0% 0 4.38s 195 569 0
Laguna XS 2.1 3.0 10.0 0.0% 0 10.88s 255 16 4,437

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں