قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs StepFun: Step 3.5 Flash

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-03

المقياس	OpenAI: GPT-5.2 Chat none الإصدار: 2025-12-11	StepFun: Step 3.5 Flash medium الإصدار: 2026-02-01 متاح مجانًا
الترتيب	#12	#17
متوسط الدرجة	7.41	7.00
الاتساق	9.45	8.32
التكلفة لكل نتيجة	2.261	0.000
إجمالي التكلفة	$0.227	$0.000
اختبارات صحيحة
معدل النجاح لكل محاولة	73.8%	73.8%
اختبارات غير مستقرة	1	3
رموز الإخراج	14,267	60,502
رموز الاستدلال	0	117,044

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	10.00	10.00	100.0%	0		1,651	0
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		13,924	17,208

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	9.88	10.00	100.0%	0		980	0
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		535	11,548

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	4.00	10.00	33.3%	0		7,810	0
StepFun: Step 3.5 Flash	4.00	7.21	44.4%	1		40,942	74,237

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	5.50	6.13	66.7%	1		1,528	0
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		2,121	3,274

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	7.00	10.00	66.7%	0		1,743	0
StepFun: Step 3.5 Flash	2.00	4.96	33.3%	2		2,705	6,975

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.2 Chat	10.00	10.00	100.0%	0		555	0
StepFun: Step 3.5 Flash	10.00	10.00	100.0%	0		275	3,802

مقارنة سريعة

تبديل زوج المقارنة

Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsGLM 5medium Gemini 3 Flash PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا GPT-5.3 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6nonevsStep 3.5 Flashmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا