AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.6 35B A3B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-27

المقياس	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none الإصدار: 2026-04-20

المقياس	GPT-5.5 GPT-5.5 low الإصدار: 2026-04-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none الإصدار: 2026-04-20
النتيجة	9.0	5.1
الترتيب	#5	#112
الموثوقية	10.0	10.0
الاتساق	9.6	7.4
اختبارات صحيحة
معدل النجاح لكل محاولة	87.0%	39.6%
اختبارات غير مستقرة	1	5
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	4.534	0.471
إجمالي التكلفة	$0.681	$0.019
??? ???????	$5.000 / 1M	$0.162 / 1M
??? ???????	$30.000 / 1M	$0.966 / 1M
رموز الإخراج	1,959	17,503
رموز الاستدلال	16,134	0
زمن الاستجابة (المتوسط)	8.39s	2.87s
زمن الاستجابة (الحد الأقصى)	56.19s	12.46s
زمن الاستجابة (الإجمالي)	151.01s	46.00s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		4.15s	232	1,056
Qwen3.6 35B A3B	3.6	7.6	16.7%	1		2.10s	1,571	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		7.79s	369	936
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		2.05s	921	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		9.56s	303	717
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		3.28s	228	157
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		1.46s	248	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	5.3	10.0	33.3%	0		27.57s	69	11,731
Qwen3.6 35B A3B	3.5	4.4	33.3%	2		7.45s	11,381	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		3.45s	143	132
Qwen3.6 35B A3B	4.4	3.0	33.3%	1		3.51s	1,545	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	9.9	10.0	100.0%	0		2.98s	93	356
Qwen3.6 35B A3B	6.2	5.8	66.7%	1		1.86s	1,264	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	9.0	7.9	88.9%	1		4.48s	272	948
Qwen3.6 35B A3B	3.2	9.9	0.0%	0		1.00s	573	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		4.96s	250	101
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.7nonevsGPT-5.5low Elephant AlphamediumvsQwen3.6 35B A3Bnone MiniMax M2.7mediumvsQwen3.6 35B A3Bnone Claude Opus 4.7mediumvsGPT-5.5low GPT-5.5lowvsQwen3.6 Max Previewmedium GPT-5.5lowvsQwen3.6 35B A3Bmedium Seed-2.0-LitemediumvsGPT-5.5low Qwen3.6 35B A3BnonevsGLM 4.7 Flashmedium GPT-5.5lowvsQwen3.5 Plus 2026-02-15medium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low GPT-5.5lowvsHY3 Previewhighمتاح مجانًا Mistral Small 4mediumvsQwen3.6 35B A3Bnone