Claude Opus 4.8 vs Gemini 3.1 Pro Preview (medium)

يتقدم Gemini 3.1 Pro Preview (medium) في متوسط النتيجة بـ 9.2 مقابل 7.3. لدى Claude Opus 4.8 تكلفة benchmark أقل عند $1.166 مقابل $1.361. Claude Opus 4.8 أسرع عند 4.91s مقابل 21.47s، مع معدلات نجاح 63.6% مقابل 90.9%.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-25

الترتيب: #74
إجمالي رموز الإخراج: 16,797
زمن الاستجابة (المتوسط): 4.91s
إجمالي التكلفة: $1.166

الترتيب: #10
إجمالي رموز الإخراج: 97,958
زمن الاستجابة (المتوسط): 21.47s
إجمالي التكلفة: $1.361

النموذج الموصى به Gemini 3.1 Pro Preview (medium)

It has the strongest score in this comparison (9.2) and the best overall balance of cost and response time across all 2 models.

مقارنة تفصيلية

المقياس	Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19

المقياس	Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19
النتيجة	7.3	9.2
الترتيب	#74	#10
الموثوقية	10.0	10.0
الاتساق	9.2	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	63.6%	90.9%
اختبارات غير مستقرة	2	0
إجمالي مرات التشغيل	66	66
التكلفة لكل نتيجة	8.969	6.801
إجمالي التكلفة	$1.166	$1.361
سعر الإدخال	$5.000 / 1M	$2.000 / 1M
سعر الإخراج	$25.000 / 1M	$12.000 / 1M
إجمالي رموز الإدخال	149,206	92,287
رموز الإخراج	16,797	5,232
رموز الاستدلال	0	92,726
زمن الاستجابة (المتوسط)	4.91s	21.47s
زمن الاستجابة (الحد الأقصى)	35.03s	88.68s
زمن الاستجابة (الإجمالي)	108.03s	322.08s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#74 Claude Opus 4.8

none

التكلفة: $0.053
الوقت: 22.0s
الرموز: 2,253 tok

#10 Gemini 3.1 Pro Preview

medium

التكلفة: $0.115
الوقت: 87.2s
الرموز: 9,629 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

الفئة:

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Gemini 3.1 Pro Preview	9.8	10.0	100.0%	0		40.39s	67,910	3,687	23,111

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 5highvsGemini 3.1 Pro Previewmedium Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsKimi K2.6medium Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high Claude Opus 4.8nonevsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.6 Solhigh Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium