AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs Qwen: Qwen3.5-9B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-17

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02

المقياس	GPT-5.4 Mini GPT-5.4 Mini none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02
الترتيب	#66	#70
النتيجة	4.8	4.5
الاتساق	8.6	7.0
التكلفة لكل نتيجة	0.737	0.787
إجمالي التكلفة	$0.030	$0.024
اختبارات صحيحة
معدل النجاح لكل محاولة	31.4%	35.3%
اختبارات غير مستقرة	3	6
إجمالي مرات التشغيل	51	51
رموز الإخراج	2,085	18,141
رموز الاستدلال	0	141,204
زمن الاستجابة (المتوسط)	1.17s	69.21s
زمن الاستجابة (الحد الأقصى)	2.52s	226.38s
زمن الاستجابة (الإجمالي)	19.82s	968.99s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 MininonevsQwen3 Coder Nextmedium GPT-5.4 MininonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3.5-9Bmedium Mercury 2nonevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneمتاح مجانًاvsQwen3.5-9Bmedium Mistral Small 4mediumvsGPT-5.4 Mininone Mistral Small 4nonevsQwen3.5-9Bmedium Trinity Large Previewnoneمتاح مجانًاvsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium