AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Laguna Xs.2

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-01

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Laguna Xs.2 Laguna Xs.2 medium الإصدار: 2026-04-28 متاح مجانًا

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Laguna Xs.2 Laguna Xs.2 medium الإصدار: 2026-04-28 متاح مجانًا
النتيجة	5.1	6.2
الترتيب	#117	#81
الموثوقية	غير متاح	10.0
الاتساق	8.6	6.9
اختبارات صحيحة
معدل النجاح لكل محاولة	35.2%	57.4%
اختبارات غير مستقرة	3	7
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.630	0.000
إجمالي التكلفة	$0.032	$0.000
??? ???????	$0.750 / 1M	$0.000 / 1M
??? ???????	$4.500 / 1M	$0.000 / 1M
رموز الإخراج	2,418	58,141
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.17s	6.03s
زمن الاستجابة (الحد الأقصى)	2.52s	29.11s
زمن الاستجابة (الإجمالي)	21.01s	108.59s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0
Laguna Xs.2	7.4	5.9	83.3%	2		2.60s	5,283	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.19s	333	0
Laguna Xs.2	6.3	3.7	33.3%	1		14.36s	7,896	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0
Laguna Xs.2	3.0	10.0	0.0%	0		15.92s	8,501	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0
Laguna Xs.2	7.1	5.6	83.3%	1		9.34s	10,472	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0
Laguna Xs.2	4.1	4.4	44.5%	2		11.12s	18,712	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0
Laguna Xs.2	4.1	10.0	0.0%	0		2.76s	1,421	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0
Laguna Xs.2	10.0	10.0	100.0%	0		1.68s	1,517	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0
Laguna Xs.2	5.3	10.0	33.3%	0		2.12s	3,168	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0
Laguna Xs.2	4.7	1.6	66.7%	1		3.39s	1,171	0

مقارنة سريعة

تبديل زوج المقارنة

Seed-2.0-LitenonevsLaguna Xs.2mediumمتاح مجانًا Laguna Xs.2mediumمتاح مجانًاvsQwen3.5-35B-A3Bnone Laguna Xs.2mediumمتاح مجانًاvsQwen3.5-Flashnone Laguna Xs.2mediumمتاح مجانًاvsGLM 5V Turbonone DeepSeek V4 PrononevsLaguna Xs.2mediumمتاح مجانًا Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGPT-5.4 Mininone GPT-5.4 MininonevsElephant Alphamedium Laguna Xs.2mediumمتاح مجانًاvsQwen3.6 27Bnone MiniMax M2.7mediumvsGPT-5.4 Mininone Laguna Xs.2mediumمتاح مجانًاvsQwen3.5-27Bnone DeepSeek V3.2nonevsLaguna Xs.2mediumمتاح مجانًا Laguna Xs.2mediumمتاح مجانًاvsMiMo-V2-Pronone