AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Pro Preview

الملخص

مقارنة benchmark بين Claude Opus 4.6 و Gemini 3.1 Pro Preview: يتقدم Gemini 3.1 Pro Preview في متوسط النتيجة بـ 9.2 مقابل 7.7. لدى Gemini 3.1 Pro Preview تكلفة benchmark أقل عند $1.054 مقابل $2.053. Gemini 3.1 Pro Preview أسرع عند 20.14s مقابل 25.89s، مع معدلات نجاح 61.9% مقابل 90.5%.

النموذج الموصى به: Gemini 3.1 Pro Preview - It has the best score here (9.2), while costing about 1.9x less than Claude Opus 4.6.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-18

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19
النتيجة	7.7	9.2
الترتيب	#38	#7
الموثوقية	10.0	10.0
الاتساق	8.8	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	61.9%	90.5%
اختبارات غير مستقرة	3	0
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	17.103	5.546
إجمالي التكلفة	$2.053	$1.054
سعر الإدخال	$5.000 / 1M	$2.000 / 1M
سعر الإخراج	$25.000 / 1M	$12.000 / 1M
إجمالي رموز الإدخال	53,227	41,617
رموز الإخراج	47,446	1,977
رموز الاستدلال	24,000	78,896
زمن الاستجابة (المتوسط)	25.89s	20.14s
زمن الاستجابة (الحد الأقصى)	83.40s	88.68s
زمن الاستجابة (الإجمالي)	362.49s	281.92s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.6

medium

SVG غير صالح

التكلفة: $0.000
الوقت: 300.0s
الرموز: 0 tok

#7 Gemini 3.1 Pro Preview

medium

التكلفة: $0.115
الوقت: 87.2s
الرموز: 9,629 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	17,240	432	9,281

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297

مقارنة سريعة

تبديل زوج المقارنة