قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

النماذج المقارنة

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	OpenAI: GPT-5.4 medium الإصدار: 2026-03-05	OpenAI: GPT-5.3-Codex medium الإصدار: 2026-02-05	OpenAI: GPT-5.2 medium الإصدار: 2025-12-11
الترتيب	#7	#4	#26
متوسط الدرجة	82	87	69
الاتساق	89	90	78
التكلفة لكل نتيجة	6.533	4.418	3.057
إجمالي التكلفة	$0.784	$0.531	$0.306
اختبارات صحيحة
معدل النجاح لكل محاولة	86.7%	88.9%	80.0%
اختبارات غير مستقرة	2	2	4
رموز الإخراج	1,611	1,577	2,058
رموز الاستدلال	46,321	33,017	16,542

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	100	100	100.0%	0		216	1,466
OpenAI: GPT-5.3-Codex	100	100	100.0%	0		216	1,421
OpenAI: GPT-5.2	70	73	77.8%	1		549	2,002

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	100	100	100.0%	0		301	3,543
OpenAI: GPT-5.3-Codex	100	100	100.0%	0		364	2,731
OpenAI: GPT-5.2	100	100	100.0%	0		291	1,757

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	99	100	100.0%	0		234	804
OpenAI: GPT-5.3-Codex	99	100	100.0%	0		234	728
OpenAI: GPT-5.2	99	100	100.0%	0		234	420

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	40	72	44.4%	1		61	34,748
OpenAI: GPT-5.3-Codex	40	72	55.6%	1		64	25,308
OpenAI: GPT-5.2	40	72	55.6%	1		42	10,342

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	100	100	100.0%	0		93	897
OpenAI: GPT-5.3-Codex	100	100	100.0%	0		93	693
OpenAI: GPT-5.2	95	100	100.0%	0		94	614

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	70	72	88.9%	1		442	3,832
OpenAI: GPT-5.3-Codex	93	79	88.9%	1		352	1,644
OpenAI: GPT-5.2	70	73	77.8%	1		609	938

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
OpenAI: GPT-5.4	100	100	100.0%	0		264	1,031
OpenAI: GPT-5.3-Codex	100	100	100.0%	0		254	492
OpenAI: GPT-5.2	100	16	66.7%	1		239	469

مقارنة سريعة

تبديل زوج المقارنة

Claude Sonnet 4.6nonevsGPT-5.2medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3 Flash PreviewnonevsGPT-5.2medium GPT-5.2mediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium GPT-5.2mediumvsGLM 5none