AI BENCHY Compare

OpenAI: GPT-5.5 vs Qwen: Qwen3.6 35B A3B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-27

المقياس	GPT-5.5 GPT-5.5 medium الإصدار: 2026-04-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none الإصدار: 2026-04-20

المقياس	GPT-5.5 GPT-5.5 medium الإصدار: 2026-04-24	Qwen3.6 35B A3B Qwen3.6 35B A3B none الإصدار: 2026-04-20
النتيجة	9.0	5.1
الترتيب	#6	#112
الموثوقية	غير متاح	10.0
الاتساق	9.2	7.4
اختبارات صحيحة
معدل النجاح لكل محاولة	87.0%	39.6%
اختبارات غير مستقرة	2	5
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	19.226	0.471
إجمالي التكلفة	$2.884	$0.019
??? ???????	$5.000 / 1M	$0.162 / 1M
??? ???????	$30.000 / 1M	$0.966 / 1M
رموز الإخراج	1,920	17,503
رموز الاستدلال	89,632	0
زمن الاستجابة (المتوسط)	32.75s	2.87s
زمن الاستجابة (الحد الأقصى)	332.10s	12.46s
زمن الاستجابة (الإجمالي)	589.59s	46.00s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		4.66s	250	1,335
Qwen3.6 35B A3B	3.6	7.6	16.7%	1		2.10s	1,571	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		9.09s	318	1,391
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		2.05s	921	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		19.29s	312	2,841
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		4.18s	234	593
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		1.46s	248	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	5.3	7.2	44.4%	1		164.14s	67	79,625
Qwen3.6 35B A3B	3.5	4.4	33.3%	2		7.45s	11,381	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		4.16s	138	223
Qwen3.6 35B A3B	4.4	3.0	33.3%	1		3.51s	1,545	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		3.36s	93	538
Qwen3.6 35B A3B	6.2	5.8	66.7%	1		1.86s	1,264	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	8.6	7.9	77.8%	1		6.78s	250	2,254
Qwen3.6 35B A3B	3.2	9.9	0.0%	0		1.00s	573	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.5	10.0	10.0	100.0%	0		10.57s	258	832
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0

مقارنة سريعة

تبديل زوج المقارنة

Elephant AlphamediumvsQwen3.6 35B A3Bnone Gemini 3 Flash PreviewlowvsGPT-5.5medium MiniMax M2.7mediumvsQwen3.6 35B A3Bnone Claude Opus 4.7nonevsGPT-5.5medium GPT-5.5mediumvsHY3 Previewhighمتاح مجانًا Qwen3.6 35B A3BnonevsGLM 4.7 Flashmedium Mistral Small 4mediumvsQwen3.6 35B A3Bnone MiniMax M2.5mediumمتاح مجانًاvsQwen3.6 35B A3Bnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.6 35B A3Bnone GPT-5.5mediumvsHY3 Previewlowمتاح مجانًا Gemini 3 Flash PreviewnonevsGPT-5.5medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.5medium