AI BENCHY Compare

OpenAI: GPT-5.5 vs Laguna Xs.2

خلاصہ

GPT-5.5 vs Laguna Xs.2 benchmark موازنہ: GPT-5.5 average score میں آگے ہے: 9.3 vs 5.5. Laguna Xs.2 کی benchmark لاگت کم ہے: $0.000 vs $0.907. Laguna Xs.2 تیز ہے: 6.73s vs 9.76s، pass rates 85.7% vs 50.9%.

تجویز کردہ ماڈل: GPT-5.5 - It has the strongest score in this comparison (9.3) and the best overall balance of cost and response time across all 2 models.

بینچ مارکس AI BENCHY ٹیسٹ سوئٹس سے اس وقت تیار کیے گئے: 2026-06-12

میٹرک	GPT-5.5 GPT-5.5 low اجرا: 2026-04-24	Laguna Xs.2 Laguna Xs.2 medium اجرا: 2026-04-28 مفت دستیاب

میٹرک	GPT-5.5 GPT-5.5 low اجرا: 2026-04-24	Laguna Xs.2 Laguna Xs.2 medium اجرا: 2026-04-28 مفت دستیاب
اسکور	9.3	5.5
درجہ	#5	#123
اعتماد پذیری	10.0	10.0
تسلسل	10.0	7.4
درست ٹیسٹس
فی کوشش کامیابی کی شرح	85.7%	50.9%
غیر مستحکم ٹیسٹ	0	6
کل رنز	63	57
فی نتیجہ لاگت	5.035	0.000
کل لاگت	$0.907	$0.000
ان پٹ قیمت	$5.000 / 1M	$0.000 / 1M
آؤٹ پٹ قیمت	$30.000 / 1M	$0.000 / 1M
کل ان پٹ ٹوکنز	34,209	39,481
آؤٹ پٹ ٹوکنز	2,046	54,218
ریزننگ ٹوکنز	22,460	0
ردِعمل کا وقت (اوسط)	9.76s	6.73s
ردِعمل کا وقت (زیادہ سے زیادہ)	56.19s	29.11s
ردِعمل کا وقت (کل)	204.92s	100.98s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#5 GPT-5.5

low

Cost: $0.068
Time: 37.0s
Tokens: 2,339 tok

#123 Laguna Xs.2

medium

No showcase result has been generated for this model yet.

Cost: $0.000
Time: -
Tokens: 0 tok

اسکور کے لحاظ سے سرفہرست ماڈلز

اسکور بمقابلہ کل لاگت

ردِعمل کا وقت (اوسط)

اسکور vs ردِعمل کا وقت (اوسط)

کل آؤٹ پٹ ٹوکنز

اسکور vs کل آؤٹ پٹ ٹوکنز

زمرہ وار تفصیل

اینٹی اے آئی چالیں	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.41s	606	238	1,020
Laguna Xs.2	6.9	7.9	66.7%	1		2.68s	579	4,062	0

کوڈنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		15.04s	7,302	423	6,402
Laguna Xs.2	6.3	3.7	33.3%	1		14.36s	816	7,896	0

مشترکہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		9.56s	11,019	303	717
Laguna Xs.2	3.0	10.0	0.0%	0		15.92s	18,436	8,501	0

ڈیٹا پارسنگ اور استخراج	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		3.28s	7,140	228	157
Laguna Xs.2	7.1	5.6	83.3%	1		9.34s	7,734	10,472	0

ڈومین مخصوص	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	5.3	10.0	33.3%	0		28.05s	723	69	11,609
Laguna Xs.2	4.1	4.4	44.5%	2		11.12s	834	18,712	0

عمومی ذہانت	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		5.17s	477	133	245
Laguna Xs.2	3.0	10.0	0.0%	0		0ms	0	0	0

ہدایات کی پیروی	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	9.9	10.0	100.0%	0		3.74s	660	93	415
Laguna Xs.2	10.0	10.0	100.0%	0		1.68s	753	1,517	0

پہیلی حل کرنا	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.74s	642	279	954
Laguna Xs.2	5.3	10.0	33.3%	0		1.93s	453	1,887	0

ٹول کالنگ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	10.0	10.0	100.0%	0		4.96s	5,445	250	101
Laguna Xs.2	4.7	1.6	66.7%	1		3.39s	9,876	1,171	0

معلومات عامہ	اسکور	تسلسل	فی کوشش کامیابی کی شرح	غیر مستحکم ٹیسٹ	درست ٹیسٹس	ردِعمل کا وقت (اوسط)	ان پٹ ٹوکنز	آؤٹ پٹ ٹوکنز	ریزننگ ٹوکنز
GPT-5.5	3.0	10.0	0.0%	0		10.06s	195	30	840
Laguna Xs.2	3.0	10.0	0.0%	0		0ms	0	0	0

فوری موازنہ

موازنہ کی جوڑی تبدیل کریں

GPT-5.5lowvsQwen3.7 Maxmedium Claude Fable 5mediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.5 FlashmediumvsGPT-5.5low Gemini 3 Flash PreviewmediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium Claude Opus 4.8mediumvsGPT-5.5low Gemini 3.5 FlashhighvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.5low GPT-5.5lowvsGLM 5medium Seed-2.0-LitemediumvsGPT-5.5low GPT-5.5lowvsStep 3.7 Flashmedium