AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-9B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-17

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B none الإصدار: 2026-03-02

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B none الإصدار: 2026-03-02
الترتيب	#66	#67
النتيجة	4.8	4.8
الاتساق	8.6	10.0
التكلفة لكل نتيجة	0.737	0.111
إجمالي التكلفة	$0.030	$0.005
اختبارات صحيحة
معدل النجاح لكل محاولة	31.4%	23.5%
اختبارات غير مستقرة	3	0
إجمالي مرات التشغيل	51	51
رموز الإخراج	2,085	2,945
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.17s	1.22s
زمن الاستجابة (الحد الأقصى)	2.52s	5.91s
زمن الاستجابة (الإجمالي)	19.82s	20.74s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0
Qwen3.5-9B	3.2	9.9	0.0%	0		683ms	388	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.4 MininonevsQwen3 Coder Nextmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsQwen3.5-9Bmedium Mistral Small 4mediumvsGPT-5.4 Mininone Mistral Small 4mediumvsQwen3.5-9Bnone MiniMax M2.5mediumمتاح مجانًاvsGPT-5.4 Mininone MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-9Bnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-9Bnone GPT-5.4 MininonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-9BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-9Bnone