قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

ByteDance Seed: Seed-2.0-Mini vs OpenAI: GPT-5.3 Chat

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	ByteDance Seed: Seed-2.0-Mini medium الإصدار: 2026-02-14	OpenAI: GPT-5.3 Chat none الإصدار: 2026-03-03
الترتيب	#23	#19
متوسط الدرجة	6.9	7.3
الاتساق	9.1	8.5
التكلفة لكل نتيجة	0.280	3.163
إجمالي التكلفة	$0.028	$0.317
اختبارات صحيحة
معدل النجاح لكل محاولة	68.8%	70.8%
اختبارات غير مستقرة	2	3
common.totalRuns	48 (16 x 3)	48 (16 x 3)
رموز الإخراج	1,965	19,272
رموز الاستدلال	58,456	0
زمن الاستجابة (المتوسط)	65.09s	5.96s
زمن الاستجابة (الحد الأقصى)	262.83s	18.33s
زمن الاستجابة (الإجمالي)	846.14s	95.30s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	7.0	10.0	66.7%	0		98.99s	354	9,352
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		262.83s	404	29,806
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	9.9	10.0	100.0%	0		24.27s	246	2,743
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	0.0%	0		0ms	0	0
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	6.0	3.4	33.3%	1		36.65s	213	4,210
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		17.47s	69	2,050
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	7.0	7.2	88.9%	1		25.85s	457	5,060
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
ByteDance Seed: Seed-2.0-Mini	10.0	10.0	100.0%	0		88.68s	222	5,235
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

مقارنة سريعة

تبديل زوج المقارنة

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Seed-2.0-MinimediumvsGemini 3 Flash Previewnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewlow