AI BENCHY Compare

النماذج المقارنة

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium الإصدار: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium الإصدار: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium الإصدار: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium الإصدار: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19
الترتيب	#28	#12	#4	#2
متوسط الدرجة	6.6	7.7	8.4	9.4
الاتساق	9.0	9.5	9.1	10.0
التكلفة لكل نتيجة	13.118	8.525	4.485	3.417
إجمالي التكلفة	$1.312	$1.023	$0.539	$0.513
اختبارات صحيحة
معدل النجاح لكل محاولة	66.7%	77.1%	83.3%	93.8%
اختبارات غير مستقرة	2	1	2	0
إجمالي مرات التشغيل	48	48	48	48
رموز الإخراج	26,254	35,159	1,764	1,521
رموز الاستدلال	17,363	24,687	33,348	35,656
زمن الاستجابة (المتوسط)	22.86s	11.23s	16.59s	16.60s
زمن الاستجابة (الحد الأقصى)	83.40s	46.35s	100.93s	40.61s
زمن الاستجابة (الإجمالي)	205.71s	89.84s	265.39s	149.36s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Claude Sonnet 4.6	7.0	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	9.9	10.0	100.0%	0		13.90s	649	742
GPT-5.3-Codex	9.9	10.0	100.0%	0		3.07s	234	728
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	10.0	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3-Codex	4.0	7.2	55.6%	1		64.31s	64	25,308
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3-Codex	4.0	10.0	0.0%	0		4.87s	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.3-Codex	9.3	7.9	88.9%	1		5.12s	352	1,644
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone