AI BENCHY Compare

OpenAI: GPT-5.4 vs Laguna Xs.2

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	GPT-5.4 GPT-5.4 none الإصدار: 2026-03-05	Laguna Xs.2 Laguna Xs.2 medium الإصدار: 2026-04-28 متاح مجانًا

المقياس	GPT-5.4 GPT-5.4 none الإصدار: 2026-03-05	Laguna Xs.2 Laguna Xs.2 medium الإصدار: 2026-04-28 متاح مجانًا
النتيجة	5.9	6.2
الترتيب	#86	#81
الموثوقية	غير متاح	10.0
الاتساق	9.1	6.9
اختبارات صحيحة
معدل النجاح لكل محاولة	42.6%	57.4%
اختبارات غير مستقرة	2	7
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	1.477	0.000
إجمالي التكلفة	$0.104	$0.000
??? ???????	$2.500 / 1M	$0.000 / 1M
??? ???????	$15.000 / 1M	$0.000 / 1M
رموز الإخراج	2,317	58,141
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.51s	6.03s
زمن الاستجابة (الحد الأقصى)	2.95s	29.11s
زمن الاستجابة (الإجمالي)	27.21s	108.59s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	3.2	8.0	8.3%	1		1.21s	406	0
Laguna Xs.2	7.4	5.9	83.3%	2		2.60s	5,283	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		2.95s	480	0
Laguna Xs.2	6.3	3.7	33.3%	1		14.36s	7,896	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	3.0	10.0	0.0%	0		2.89s	291	0
Laguna Xs.2	3.0	10.0	0.0%	0		15.92s	8,501	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		1.04s	222	0
Laguna Xs.2	7.1	5.6	83.3%	1		9.34s	10,472	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	5.3	7.2	44.4%	1		1.07s	50	0
Laguna Xs.2	4.1	4.4	44.5%	2		11.12s	18,712	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	4.4	9.9	0.0%	0		1.78s	184	0
Laguna Xs.2	4.1	10.0	0.0%	0		2.76s	1,421	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	6.5	10.0	50.0%	0		1.07s	81	0
Laguna Xs.2	10.0	10.0	100.0%	0		1.68s	1,517	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	5.6	9.8	33.3%	0		1.52s	357	0
Laguna Xs.2	5.3	10.0	33.3%	0		2.12s	3,168	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Laguna Xs.2	4.7	1.6	66.7%	1		3.39s	1,171	0

مقارنة سريعة

تبديل زوج المقارنة

Gemini 2.5 FlashnonevsLaguna Xs.2mediumمتاح مجانًا Seed-2.0-LitenonevsLaguna Xs.2mediumمتاح مجانًا Gemma 4 26B A4Bnoneمتاح مجانًاvsLaguna Xs.2mediumمتاح مجانًا Laguna Xs.2mediumمتاح مجانًاvsQwen3.5-35B-A3Bnone Laguna Xs.2mediumمتاح مجانًاvsQwen3.5-Flashnone Laguna Xs.2mediumمتاح مجانًاvsGLM 5V Turbonone Laguna Xs.2mediumمتاح مجانًاvsQwen3.6 27Bnone DeepSeek V3.2nonevsLaguna Xs.2mediumمتاح مجانًا Laguna Xs.2mediumمتاح مجانًاvsMiMo-V2-Pronone MiniMax M2.5mediumمتاح مجانًاvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none Laguna Xs.2mediumمتاح مجانًاvsQwen3.5-27Bnone