التنقل
AI BENCHY
قارن الرسوم البيانية
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Google: Gemini 2.5 Flash vs Google: Gemini 3.1 Pro Preview

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-03

المقياس Google: Gemini 2.5 Flash medium الإصدار: 2025-06-17 Google: Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19
الترتيب #16 #2
متوسط الدرجة 7.05 9.36
الاتساق 9.39 10.00
التكلفة لكل نتيجة 2.762 2.443
إجمالي التكلفة $0.249 $0.318
اختبارات صحيحة
معدل النجاح لكل محاولة 69.1% 92.9%
اختبارات غير مستقرة 1 0
رموز الإخراج 975 1,000
رموز الاستدلال 96,701 22,936

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Google: Gemini 2.5 Flash 7.33 10.00 66.7% 0 249 8,832
Google: Gemini 3.1 Pro Preview 10.00 10.00 100.0% 0 106 2,533
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Google: Gemini 2.5 Flash 9.88 10.00 100.0% 0 279 2,325
Google: Gemini 3.1 Pro Preview 10.00 10.00 100.0% 0 292 3,164
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Google: Gemini 2.5 Flash 4.00 7.21 55.6% 1 18 80,702
Google: Gemini 3.1 Pro Preview 7.00 10.00 66.7% 0 18 10,688
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Google: Gemini 2.5 Flash 7.00 9.91 50.0% 0 69 1,203
Google: Gemini 3.1 Pro Preview 10.00 10.00 100.0% 0 72 2,436
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Google: Gemini 2.5 Flash 7.00 10.00 66.7% 0 126 2,499
Google: Gemini 3.1 Pro Preview 10.00 10.00 100.0% 0 238 3,133
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Google: Gemini 2.5 Flash 10.00 10.00 100.0% 0 234 1,140
Google: Gemini 3.1 Pro Preview 10.00 10.00 100.0% 0 274 982

مقارنة سريعة

تبديل زوج المقارنة