النماذج المقارنة

مقارنة benchmark بين Grok 4.20 (medium) vs Grok 4.20 Beta (medium) vs Grok 4.3 (medium): يتصدر Grok 4.3 (medium) في النتيجة بقيمة 7.1. يتصدر Grok 4.20 (medium) في الموثوقية بقيمة 10.0. يمتلك Grok 4.20 Beta (medium) أقل إجمالي التكلفة عند $0.750. Grok 4.20 Beta (medium) هو الأسرع عند 9.75s.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-08-01

الترتيب: #90
إجمالي رموز الإخراج: 259,340
زمن الاستجابة (المتوسط): 29.47s
إجمالي التكلفة: $0.777

الترتيب: #152
إجمالي رموز الإخراج: 93,212
زمن الاستجابة (المتوسط): 9.75s
إجمالي التكلفة: $0.750

الترتيب: #88
إجمالي رموز الإخراج: 241,421
زمن الاستجابة (المتوسط): 47.45s
إجمالي التكلفة: $0.779

النموذج الموصى به Grok 4.20 (medium)

It has the strongest score in this comparison (7.1) and the best overall balance of cost and response time across all 3 models.

مقارنة تفصيلية

المقياس	Grok 4.20 Grok 4.20 medium الإصدار: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12	Grok 4.3 Grok 4.3 medium الإصدار: 2026-05-01

المقياس	Grok 4.20 Grok 4.20 medium الإصدار: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12	Grok 4.3 Grok 4.3 medium الإصدار: 2026-05-01
النتيجة	7.1	6.0	7.1
الترتيب	#90	#152	#88
الموثوقية	10.0	غير متاح	10.0
الاتساق	8.5	7.8	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	63.6%	66.7%	68.2%
اختبارات غير مستقرة	4	1	4
إجمالي مرات التشغيل	66	52	66
التكلفة لكل نتيجة	9.709	4.505	5.990
إجمالي التكلفة	$0.777	$0.750	$0.779
سعر الإدخال	$1.250 / 1M	$5.805 / 1M	$1.250 / 1M
سعر الإخراج	$2.500 / 1M	$5.805 / 1M	$2.500 / 1M
إجمالي رموز الإدخال	102,791	35,955	140,031
رموز الإخراج	5,363	1,647	13,739
رموز الاستدلال	253,977	91,565	227,682
زمن الاستجابة (المتوسط)	29.47s	9.75s	47.45s
زمن الاستجابة (الحد الأقصى)	199.66s	31.36s	216.69s
زمن الاستجابة (الإجمالي)	648.35s	175.48s	1043.83s

عرض إنشاء النماذج

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 xAI: Grok 4.20

medium

التكلفة: $0.041
الوقت: 110.3s
الرموز: 16,336 tok

#152 Grok 4.20 Beta

medium

التكلفة: $0.034
الوقت: 91.0s
الرموز: 13,523 tok

#88 xAI: Grok 4.3

medium

التكلفة: $0.009
الوقت: 19.0s
الرموز: 3,661 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

الفئة:

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	8.2	7.9	83.3%	1	3.95s	2,010	287	8,312
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.3	10.0	10.0	100.0%	0	8.83s	2,010	88	8,207

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	6.3	6.6	55.6%	1	109.93s	8,307	268	103,150
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.3	5.9	7.7	44.4%	1	41.23s	8,340	1,028	31,226

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	8.7	6.9	83.3%	1	42.25s	71,267	3,776	44,009
Grok 4.20 Beta	5.0	5.0	50.0%	0	20.93s	12,909	227	12,212
Grok 4.3	6.5	10.0	50.0%	0	55.07s	108,468	11,992	21,601

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	10.0	10.0	100.0%	4.17s	7,761	180	5,333
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.3	10.0	10.0	100.0%	18.97s	7,761	180	9,546

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	5.3	10.0	33.3%	0	27.03s	1,764	375	49,339
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.3	5.3	7.2	44.4%	1	181.74s	1,764	14	111,300

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	3.9	2.6	33.3%	1	24.48s	825	65	6,440
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.3	5.4	2.5	66.7%	1	24.70s	825	70	5,020

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	9.8	10.0	100.0%	4.26s	1,362	57	6,419
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.3	9.8	10.0	100.0%	18.58s	1,362	57	8,713

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	7.7	10.0	66.7%	0	6.22s	1,689	149	7,913
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.3	5.9	7.2	55.6%	1	22.52s	1,689	128	14,468

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	3.0	10.0	0.0%	13.68s	7,275	197	6,620
Grok 4.20 Beta	3.0	10.0	0.0%	12.39s	7,275	183	5,384
Grok 4.3	10.0	10.0	100.0%	17.66s	7,263	168	4,615

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Grok 4.20	3.0	10.0	0.0%	63.48s	531	9	16,442
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.3	3.0	10.0	0.0%	44.47s	549	14	12,986

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsGrok 4.3medium KAT-Coder-Pro V2.5highvsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Gemini 3.5 FlashnonevsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.20medium Qwen3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.5 FlashnonevsGrok 4.3medium Qwen3.7 FlashlowvsGrok 4.20medium