AI BENCHY Compare

OpenAI: GPT-4o-mini vs xAI: Grok 4.20

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	Grok 4.20 Grok 4.20 none الإصدار: 2026-03-31

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	Grok 4.20 Grok 4.20 none الإصدار: 2026-03-31
النتيجة	4.9	5.2
الترتيب	#119	#108
الموثوقية	غير متاح	غير متاح
الاتساق	9.9	9.5
اختبارات صحيحة
معدل النجاح لكل محاولة	22.2%	29.6%
اختبارات غير مستقرة	0	1
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	0.122	1.889
إجمالي التكلفة	$0.005	$0.095
??? ???????	$0.150 / 1M	$2.000 / 1M
??? ???????	$0.600 / 1M	$6.000 / 1M
رموز الإخراج	1,947	1,967
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	2.00s	1.11s
زمن الاستجابة (الحد الأقصى)	7.58s	6.04s
زمن الاستجابة (الإجمالي)	21.99s	20.02s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	8.7	0.0%	0		2.55s	347	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.8	10.0	0.0%	0		1.27s	69	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.7	10.0	0.0%	0		1.30s	308	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

مقارنة سريعة

تبديل زوج المقارنة

Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGrok 4.20none Elephant AlphamediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none GPT-4o-mininonevsQwen3 Coder Nextmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Nemotron 3 Nano Omni 30b A3b Reasoningmediumمتاح مجانًاvsGPT-4o-mininone GPT-4o-mininonevsElephant Alphamedium MiniMax M2.7mediumvsGPT-4o-mininone Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumمتاح مجانًاvsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20none GPT-4o-mininonevsQwen3.5-9Bmedium