قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-27B

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	OpenAI: GPT-5.4 none الإصدار: 2026-03-05	Qwen: Qwen3.5-27B none الإصدار: 2026-02-24
الترتيب	#44	#41
متوسط الدرجة	4.6	4.9
اختبارات صحيحة
الاتساق	8.9	9.0
التكلفة لكل نتيجة	1.496	0.297
إجمالي التكلفة	$0.090	$0.015
معدل النجاح لكل محاولة	44.4%	40.0%
اختبارات غير مستقرة	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	1,635	3,035
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.46s	1.70s
زمن الاستجابة (الحد الأقصى)	2.89s	9.39s
زمن الاستجابة (الإجمالي)	21.86s	25.55s

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-27B	4.0	10.0	33.3%	0		796ms	264	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-27B	10.0	1.6	33.3%	1		9.39s	1,461	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-27B	9.9	10.0	100.0%	0		1.43s	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-27B	10.0	10.0	0.0%	0		540ms	15	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-27B	4.5	10.0	0.0%	0		815ms	69	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-27B	6.3	7.9	55.6%	1		1.37s	680	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0

مقارنة سريعة

تبديل زوج المقارنة

MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGPT-5.4none gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-27Bnone GPT-5 NanomediumvsQwen3.5-27Bnone Mercury 2mediumvsGPT-5.4none GPT-5 MinimediumvsQwen3.5-27Bnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsQwen3.5-27Bnone Kimi K2.5mediumvsQwen3.5-27Bnone