قارن الرسوم البيانية common.methodology

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Google: Gemini 3.1 Flash Lite Preview high الإصدار: 2026-03-03	OpenAI: GPT-5.4 medium الإصدار: 2026-03-05
متوسط الدرجة	8.1	8.2
الترتيب	#10	#7
اختبارات صحيحة
الاتساق	9.6	8.9
التكلفة لكل نتيجة	20.937	6.533
إجمالي التكلفة	$2.303	$0.784
معدل النجاح لكل محاولة	75.6%	86.7%
اختبارات غير مستقرة	1	2
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	1,166	1,611
رموز الاستدلال	1,529,395	46,321
زمن الاستجابة (المتوسط)	73.07s	21.06s
زمن الاستجابة (الحد الأقصى)	280.52s	100.41s
زمن الاستجابة (الإجمالي)	1096.07s	315.95s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		43.87s	144	193,077
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		280.52s	335	380,440
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		7.16s	279	6,186
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		127.58s	18	566,202
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	9.0	6.9	66.7%	1		70.07s	69	190,053
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	7.0	10.0	66.7%	0		46.33s	87	190,953
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		7.73s	234	2,484
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 Flashmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewhighvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewhighvsGLM 5medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3 Chatnone