AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-15

المقياس	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium الإصدار: 2026-03-03	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05

المقياس	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium الإصدار: 2026-03-03	GPT-5.4 GPT-5.4 medium الإصدار: 2026-03-05
الترتيب	#16	#9
النتيجة	8.0	8.5
الاتساق	10.0	8.5
التكلفة لكل نتيجة	0.443	6.601
إجمالي التكلفة	$0.049	$0.793
اختبارات صحيحة
معدل النجاح لكل محاولة	68.8%	83.3%
اختبارات غير مستقرة	0	3
إجمالي مرات التشغيل	48	48
رموز الإخراج	1,731	1,756
رموز الاستدلال	25,821	46,642
زمن الاستجابة (المتوسط)	3.83s	20.05s
زمن الاستجابة (الحد الأقصى)	14.93s	100.41s
زمن الاستجابة (الإجمالي)	61.25s	320.87s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	8.8	10.0	66.7%	0		2.53s	564	3,780
GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	327	7,347
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	279	2,952
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	18	5,325
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	96	1,488
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	72	2,121
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		3.58s	141	1,896
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	234	912
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.4medium Claude Sonnet 4.6nonevsGemini 3.1 Flash Lite Previewmedium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Claude Sonnet 4.6nonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewmediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewmediumvsGLM 5none GPT-5.4mediumvsQwen3.5 Plus 2026-02-15none DeepSeek V3.2nonevsGemini 3.1 Flash Lite Previewmedium