قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs StepFun: Step 3.5 Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	OpenAI: GPT-5.3 Chat none الإصدار: 2026-03-03	StepFun: Step 3.5 Flash medium الإصدار: 2026-02-01 متاح مجانًا
الترتيب	#19	#13
متوسط الدرجة	7.3	7.4
الاتساق	8.5	9.1
التكلفة لكل نتيجة	3.163	0.000
إجمالي التكلفة	$0.317	$0.000
اختبارات صحيحة
معدل النجاح لكل محاولة	70.8%	68.8%
اختبارات غير مستقرة	3	2
إجمالي مرات التشغيل	48 (16 x 3)	48 (16 x 3)
رموز الإخراج	19,272	71,452
رموز الاستدلال	0	155,147
زمن الاستجابة (المتوسط)	5.96s	29.10s
زمن الاستجابة (الحد الأقصى)	18.33s	170.45s
زمن الاستجابة (الإجمالي)	95.30s	290.96s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

مقارنة سريعة

تبديل زوج المقارنة

DeepSeek V3.2mediumvsGPT-5.3 Chatnone GPT-5.2 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmediumمتاح مجانًا GPT-5.3 ChatnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium