قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs StepFun: Step 3.5 Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	OpenAI: GPT-5.2 Chat none الإصدار: 2025-12-11	StepFun: Step 3.5 Flash medium الإصدار: 2026-02-01 متاح مجانًا
الترتيب	#15	#13
متوسط الدرجة	7.4	7.4
الاتساق	9.1	9.1
التكلفة لكل نتيجة	2.440	0.000
إجمالي التكلفة	$0.269	$0.000
اختبارات صحيحة
معدل النجاح لكل محاولة	75.0%	68.8%
اختبارات غير مستقرة	2	2
إجمالي مرات التشغيل	48 (16 x 3)	48 (16 x 3)
رموز الإخراج	15,845	71,452
رموز الاستدلال	0	155,147
زمن الاستجابة (المتوسط)	7.03s	29.10s
زمن الاستجابة (الحد الأقصى)	38.52s	170.45s
زمن الاستجابة (الإجمالي)	112.51s	290.96s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		3.97s	1,651	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	9.9	10.0	100.0%	0		3.05s	980	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	4.0	10.0	33.3%	0		17.78s	7,810	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	4.0	3.0	33.3%	1		3.20s	335	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	6.0	6.1	83.3%	1		5.46s	1,528	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	7.0	10.0	66.7%	0		4.42s	1,743	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.2 ChatnonevsGLM 5medium Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 Flashmediumمتاح مجانًا GPT-5.3 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا