AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.3

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-22

المقياس	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05	Grok 4.3 Grok 4.3 medium الإصدار: 2026-05-01

المقياس	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05	Grok 4.3 Grok 4.3 medium الإصدار: 2026-05-01
النتيجة	7.9	7.8
الترتيب	#27	#31
الموثوقية	10.0	10.0
الاتساق	8.5	8.4
اختبارات صحيحة
معدل النجاح لكل محاولة	75.0%	75.0%
اختبارات غير مستقرة	4	4
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	8.767	4.562
إجمالي التكلفة	$1.140	$0.593
??? ???????	$2.500 / 1M	$1.250 / 1M
??? ???????	$15.000 / 1M	$2.500 / 1M
رموز الإخراج	2,222	1,485
رموز الاستدلال	68,503	214,928
زمن الاستجابة (المتوسط)	22.31s	49.23s
زمن الاستجابة (الحد الأقصى)	100.41s	216.69s
زمن الاستجابة (الإجمالي)	446.15s	984.54s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	8.2	6.7	83.3%	1		54.98s	412	19,995
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.4	3.0	10.0	0.0%	0		13.95s	30	1,821
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsGPT-5.4medium Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.5 FlashminimalvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash LitelowvsGrok 4.3medium GPT-5.3 ChatnonevsGrok 4.3medium