التنقل
AI BENCHY
قارن الرسوم البيانية
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite Preview

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-03

المقياس Anthropic: Claude Sonnet 4.6 none الإصدار: 2026-02-17 Google: Gemini 3.1 Flash Lite Preview high الإصدار: 2026-03-03
الترتيب #22 #9
متوسط الدرجة 6.36 7.77
الاتساق 9.50 9.99
التكلفة لكل نتيجة 1.325 17.286
إجمالي التكلفة $0.106 $1.729
اختبارات صحيحة
معدل النجاح لكل محاولة 59.5% 71.4%
اختبارات غير مستقرة 1 0
رموز الإخراج 2,637 831
رموز الاستدلال 0 1,148,955

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Anthropic: Claude Sonnet 4.6 4.00 10.00 33.3% 0 1,199 0
Google: Gemini 3.1 Flash Lite Preview 10.00 10.00 100.0% 0 144 193,077
تحليل البيانات واستخراجها النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Anthropic: Claude Sonnet 4.6 10.00 10.00 100.0% 0 252 0
Google: Gemini 3.1 Flash Lite Preview 9.88 10.00 100.0% 0 279 6,186
خاص بالمجال النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Anthropic: Claude Sonnet 4.6 7.00 10.00 66.7% 0 54 0
Google: Gemini 3.1 Flash Lite Preview 4.00 10.00 33.3% 0 18 566,202
اتباع التعليمات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Anthropic: Claude Sonnet 4.6 5.50 10.00 50.0% 0 90 0
Google: Gemini 3.1 Flash Lite Preview 8.00 9.96 50.0% 0 69 190,053
Puzzle Solving النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Anthropic: Claude Sonnet 4.6 5.00 7.68 44.4% 1 595 0
Google: Gemini 3.1 Flash Lite Preview 7.00 10.00 66.7% 0 87 190,953
استدعاء الأدوات النتيجة الاتساق معدل النجاح لكل محاولة اختبارات غير مستقرة اختبارات صحيحة رموز الإخراج رموز الاستدلال
Anthropic: Claude Sonnet 4.6 10.00 10.00 100.0% 0 447 0
Google: Gemini 3.1 Flash Lite Preview 10.00 10.00 100.0% 0 234 2,484

مقارنة سريعة

تبديل زوج المقارنة