التنقل
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-28

المقياس Claude Opus 4.8 Claude Opus 4.8 none الإصدار: 2026-05-28 Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none الإصدار: 2026-03-03
النتيجة 7.3 7.5
الترتيب #63 #53
الموثوقية 10.0 10.0
الاتساق 9.2 9.7
اختبارات صحيحة
معدل النجاح لكل محاولة 65.0% 63.3%
اختبارات غير مستقرة 2 1
إجمالي مرات التشغيل 60 60
التكلفة لكل نتيجة 4.324 0.142
إجمالي التكلفة $0.519 $0.017
سعر الإدخال $5.000 / 1M $0.250 / 1M
سعر الإخراج $25.000 / 1M $1.500 / 1M
رموز الإخراج 8,098 5,541
رموز الاستدلال 0 0
زمن الاستجابة (المتوسط) 3.51s 1.23s
زمن الاستجابة (الحد الأقصى) 17.73s 3.39s
زمن الاستجابة (الإجمالي) 70.19s 24.68s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 6.5 10.0 50.0% 0 3.40s 1,472 0
Gemini 3.1 Flash Lite Preview 7.5 8.4 66.7% 1 1.04s 1,092 0
البرمجة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 6.8 10.0 50.0% 0 3.59s 1,323 0
Gemini 3.1 Flash Lite Preview 6.8 10.0 50.0% 0 1.06s 664 0
مجمّع النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.5 10.0 100.0% 0 17.73s 3,259 0
Gemini 3.1 Flash Lite Preview 3.0 10.0 0.0% 0 3.20s 339 0
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.3 5.8 83.3% 1 1.77s 308 0
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.22s 399 0
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 5.3 7.2 44.4% 1 1.66s 61 0
Gemini 3.1 Flash Lite Preview 5.3 10.0 33.3% 0 942ms 568 0
الذكاء العام النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 3.48s 230 0
Gemini 3.1 Flash Lite Preview 4.0 10.0 0.0% 0 741ms 69 0
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 9.9 10.0 100.0% 0 1.37s 95 0
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 1.13s 574 0
حل الألغاز النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 7.7 10.0 66.7% 0 2.74s 783 0
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 900ms 1,045 0
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 10.0 10.0 100.0% 0 5.35s 355 0
Gemini 3.1 Flash Lite Preview 10.0 10.0 100.0% 0 3.39s 782 0
معلومات عامة النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة زمن الاستجابة (المتوسط) رموز الإخراج رموز الاستدلال
Claude Opus 4.8 3.0 10.0 0.0% 0 3.41s 212 0
Gemini 3.1 Flash Lite Preview 3.0 10.0 0.0% 0 814ms 9 0

مقارنة سريعة

تبديل زوج المقارنة