قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	OpenAI: GPT-5.4 none الإصدار: 2026-03-05	Qwen: Qwen3.5-Flash medium الإصدار: 2026-02-24
متوسط الدرجة	4.6	7.0
الترتيب	#44	#24
اختبارات صحيحة
الاتساق	8.9	7.8
التكلفة لكل نتيجة	1.496	0.565
إجمالي التكلفة	$0.090	$0.057
معدل النجاح لكل محاولة	44.4%	82.2%
اختبارات غير مستقرة	2	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	1,635	1,708
رموز الاستدلال	0	131,466
زمن الاستجابة (المتوسط)	1.46s	72.86s
زمن الاستجابة (الحد الأقصى)	2.89s	234.29s
زمن الاستجابة (الإجمالي)	21.86s	1092.84s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		71.35s	363	23,645

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-Flash	5.5	5.9	83.3%	1		56.99s	235	16,237

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-Flash	4.0	7.2	44.4%	1		146.50s	58	43,615

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-Flash	4.0	4.4	77.8%	2		56.74s	162	24,276

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium MiniMax M2.5mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium GPT-5.2 ChatnonevsQwen3.5-Flashmedium Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-Flashmedium Gemini 3 Flash PreviewlowvsQwen3.5-Flashmedium Qwen3.5-FlashmediumvsGLM 5none GPT-5.4nonevsQwen3.5-35B-A3Bmedium