AI BENCHY Compare

OpenAI: GPT-5.4 Nano vs Qwen: Qwen3.5-9B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-01

المقياس	GPT-5.4 Nano GPT-5.4 Nano none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B none الإصدار: 2026-03-02

المقياس	GPT-5.4 Nano GPT-5.4 Nano none الإصدار: 2026-03-17	Qwen3.5-9B Qwen3.5-9B none الإصدار: 2026-03-02
النتيجة	4.6	4.8
الترتيب	#127	#124
الموثوقية	غير متاح	غير متاح
الاتساق	7.4	9.6
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	24.1%
اختبارات غير مستقرة	6	1
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.299	0.116
إجمالي التكلفة	$0.009	$0.005
??? ???????	$0.200 / 1M	$0.100 / 1M
??? ???????	$1.250 / 1M	$0.150 / 1M
رموز الإخراج	2,762	3,951
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.40s	1.47s
زمن الاستجابة (الحد الأقصى)	3.84s	5.91s
زمن الاستجابة (الإجمالي)	25.14s	26.43s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0
Qwen3.5-9B	3.1	9.9	0.0%	0		1.71s	582	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	7.1	3.7	66.7%	1		1.43s	577	0
Qwen3.5-9B	5.2	3.4	33.3%	1		5.69s	1,006	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0
Qwen3.5-9B	3.0	10.0	0.0%	0		5.91s	1,255	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0
Qwen3.5-9B	10.0	10.0	100.0%	0		847ms	249	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0
Qwen3.5-9B	3.0	10.0	0.0%	0		464ms	24	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0
Qwen3.5-9B	4.4	9.9	0.0%	0		552ms	99	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	6.3	10.0	50.0%	0		787ms	84	0
Qwen3.5-9B	6.5	10.0	50.0%	0		514ms	75	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0
Qwen3.5-9B	3.2	9.9	0.0%	0		683ms	388	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0
Qwen3.5-9B	10.0	10.0	100.0%	0		1.27s	273	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.4 NanononevsGLM 4.7 Flashmedium Qwen3.5-9BnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsQwen3.5-9Bnone Elephant AlphamediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsQwen3.5-9Bnone Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGPT-5.4 Nanonone GPT-5.4 NanononevsElephant Alphamedium MiniMax M2.7mediumvsGPT-5.4 Nanonone MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-9Bnone Mistral Small 4mediumvsQwen3.5-9Bnone