التنقل
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Pro Preview

الملخص

مقارنة benchmark بين Claude Opus 4.8 و Gemini 3.1 Pro Preview: يتقدم Gemini 3.1 Pro Preview في متوسط النتيجة بـ 9.4 مقابل 8.7. لدى Gemini 3.1 Pro Preview تكلفة benchmark أقل عند $1.054 مقابل $1.107. Claude Opus 4.8 أسرع عند 9.66s مقابل 20.14s، مع معدلات نجاح 84.1% مقابل 90.5%.

النموذج الموصى به: Claude Opus 4.8 - Its score stays close to the best score here (8.7 vs 9.4), while responding about 2.1x faster than Gemini 3.1 Pro Preview.

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-10

المقياس Claude Opus 4.8 Claude Opus 4.8 medium الإصدار: 2026-05-28 Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19
النتيجة 8.7 9.4
الترتيب #10 #4
الموثوقية 10.0 10.0
الاتساق 9.6 10.0
اختبارات صحيحة
معدل النجاح لكل محاولة 84.1% 90.5%
اختبارات غير مستقرة 1 0
إجمالي مرات التشغيل 63 63
التكلفة لكل نتيجة 6.512 5.546
إجمالي التكلفة $1.107 $1.054
سعر الإدخال $5.000 / 1M $2.000 / 1M
سعر الإخراج $25.000 / 1M $12.000 / 1M
إجمالي رموز الإدخال 61,007 41,617
رموز الإخراج 26,495 1,977
رموز الاستدلال 5,901 78,896
زمن الاستجابة (المتوسط) 9.66s 20.14s
زمن الاستجابة (الحد الأقصى) 38.03s 88.68s
زمن الاستجابة (الإجمالي) 202.89s 281.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 Claude Opus 4.8

medium
Cost
$0.057
Time
23.1s
Tokens
2,412 tok

#4 Gemini 3.1 Pro Preview

medium
Cost
$0.115
Time
87.2s
Tokens
9,629 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 834 1,179 478
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.90s 498 112 3,218
البرمجة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 15.33s 10,590 9,945 1,381
Gemini 3.1 Pro Preview 7.9 9.9 66.7% 0 40.17s 8,124 435 41,247
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.8 10.0 100.0% 0 38.03s 23,561 5,260 1,588
Gemini 3.1 Pro Preview 9.5 10.0 100.0% 0 40.61s 17,240 432 9,281
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.1 5.6 83.3% 1 12.29s 10,503 481 312
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.72s 7,265 279 3,904
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 5.3 10.0 33.3% 0 14.15s 975 7,477 900
Gemini 3.1 Pro Preview 7.7 10.0 66.7% 0 32.73s 635 18 12,424
الذكاء العام النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 2.46s 708 237 0
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 11.77s 490 108 1,179
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 3.32s 909 373 320
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 621 72 2,236
حل الألغاز النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 894 791 483
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 6.90s 570 235 3,128
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 8.96s 11,775 301 225
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 6,018 274 982
معلومات عامة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإدخال رموز الإخراج رموز الاستدلال
Claude Opus 4.8 3.0 10.0 0.0% 0 6.14s 258 451 214
Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 6.27s 156 12 1,297

مقارنة سريعة

تبديل زوج المقارنة