قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.1 Fast

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	OpenAI: GPT-5.4 none الإصدار: 2026-03-05	xAI: Grok 4.1 Fast medium الإصدار: 2025-11-19
متوسط الدرجة	4.6	6.4
الترتيب	#45	#29
اختبارات صحيحة
الاتساق	8.9	7.8
التكلفة لكل نتيجة	1.496	0.541
إجمالي التكلفة	$0.090	$0.049
معدل النجاح لكل محاولة	44.4%	71.1%
اختبارات غير مستقرة	2	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	1,635	1,056
رموز الاستدلال	0	80,419
زمن الاستجابة (المتوسط)	1.46s	27.61s
زمن الاستجابة (الحد الأقصى)	2.89s	121.79s
زمن الاستجابة (الإجمالي)	21.86s	220.87s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
xAI: Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
xAI: Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
xAI: Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium MiniMax M2.5mediumvsGPT-5.4none Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Gemini 3 Flash PreviewnonevsGrok 4.1 Fastmedium Grok 4.1 FastmediumvsGLM 5none Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsGrok 4.1 Fastmedium GPT-5.3 ChatnonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.1 Fastmedium Gemini 2.5 FlashnonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsGrok 4.1 Fastmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium