AI BENCHY Compare

DeepSeek: DeepSeek V4 Pro vs xAI: Grok 4.20

الملخص

مقارنة benchmark بين DeepSeek V4 Pro و Grok 4.20: يتقدم Grok 4.20 في متوسط النتيجة بـ 7.3 مقابل 7.2. لدى DeepSeek V4 Pro تكلفة benchmark أقل عند $0.034 مقابل $0.609. DeepSeek V4 Pro أسرع عند 6.41s مقابل 27.68s، مع معدلات نجاح 52.4% مقابل 63.5%.

النموذج الموصى به: DeepSeek V4 Pro - Its score stays close to the best score here (7.2 vs 7.3), while costing about 18.3x less than Grok 4.20.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-18

المقياس	DeepSeek V4 Pro DeepSeek V4 Pro none الإصدار: 2026-04-24	Grok 4.20 Grok 4.20 medium الإصدار: 2026-03-31

المقياس	DeepSeek V4 Pro DeepSeek V4 Pro none الإصدار: 2026-04-24	Grok 4.20 Grok 4.20 medium الإصدار: 2026-03-31
النتيجة	7.2	7.3
الترتيب	#58	#53
الموثوقية	9.9	10.0
الاتساق	8.8	8.8
اختبارات صحيحة
معدل النجاح لكل محاولة	52.4%	63.5%
اختبارات غير مستقرة	3	3
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	0.333	8.309
إجمالي التكلفة	$0.034	$0.609
سعر الإدخال	$0.435 / 1M	$1.250 / 1M
سعر الإخراج	$0.870 / 1M	$2.500 / 1M
إجمالي رموز الإدخال	53,558	44,433
رموز الإخراج	11,424	1,819
رموز الاستدلال	0	219,524
زمن الاستجابة (المتوسط)	6.41s	27.68s
زمن الاستجابة (الحد الأقصى)	30.09s	199.66s
زمن الاستجابة (الإجمالي)	134.66s	581.26s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#58 DeepSeek V4 Pro

none

SVG غير صالح

التكلفة: $0.000
الوقت: 300.0s
الرموز: 0 tok

#53 xAI: Grok 4.20

medium

التكلفة: $0.041
الوقت: 110.3s
الرموز: 16,336 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	3.2	6.1	16.7%	2		4.02s	540	1,168	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	5.6	10.0	33.3%	0		13.38s	7,275	5,500	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	9.5	10.0	100.0%	0		23.74s	27,529	2,235	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	10.0	10.0	100.0%	0		4.61s	7,568	200	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	5.3	10.0	33.3%	0		3.72s	666	24	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	5.0	10.0	0.0%	0		2.05s	471	126	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	6.3	5.8	66.7%	1		4.12s	627	713	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	10.0	10.0	100.0%	0		3.61s	594	442	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	10.0	10.0	100.0%	0		7.40s	8,105	328	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
DeepSeek V4 Pro	3.0	10.0	0.0%	0		5.76s	183	688	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

مقارنة سريعة

تبديل زوج المقارنة

DeepSeek V4 PrononevsGemma 4 26B A4Bmediumمتاح مجانًا Gemini 3 Flash PreviewlowvsGrok 4.20medium Claude Sonnet 4.6nonevsGrok 4.20medium DeepSeek V4 PrononevsStep 3.7 Flashhigh DeepSeek V4 PrononevsGLM 5.1medium Claude Opus 4.8nonevsGrok 4.20medium DeepSeek V4 PrononevsKimi K2.7 Codemedium GPT-5.3 ChatnonevsGrok 4.20medium Qwen3.7 PlusnonevsGrok 4.20medium DeepSeek V4 PrononevsGemini 3 Flash Previewlow Grok 4.20mediumvsGLM 5.2none DeepSeek V4 PrononevsMiMo-V2.5-Promedium