قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Inception: Mercury 2

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Google: Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19	Inception: Mercury 2 medium الإصدار: 2026-02-24
الترتيب	#2	#35
متوسط الدرجة	93	54
الاتساق	100	83
التكلفة لكل نتيجة	3.544	0.622
إجمالي التكلفة	$0.497	$0.044
اختبارات صحيحة
معدل النجاح لكل محاولة	93.3%	57.8%
اختبارات غير مستقرة	0	3
رموز الإخراج	1,413	3,571
رموز الاستدلال	34,477	45,379

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	100	100	100.0%	0		106	2,533
Inception: Mercury 2	73	98	66.7%	0		2,531	2,410

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	90	100	100.0%	0		432	9,281
Inception: Mercury 2	100	100	100.0%	0		268	4,887

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	99	100	100.0%	0		279	3,904
Inception: Mercury 2	55	59	83.3%	1		183	1,656

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	70	100	66.7%	0		18	12,424
Inception: Mercury 2	100	72	11.1%	1		41	30,754

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	100	100	100.0%	0		72	2,236
Inception: Mercury 2	100	100	100.0%	0		14	958

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	100	100	100.0%	0		232	3,117
Inception: Mercury 2	17	75	22.2%	1		354	2,758

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Pro Preview	100	100	100.0%	0		274	982
Inception: Mercury 2	100	100	100.0%	0		180	1,956

مقارنة سريعة

تبديل زوج المقارنة

Gemini 2.5 FlashnonevsMercury 2medium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGLM 5none Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGPT-5.4none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Trinity Large Preview (free)noneمتاح مجانًاvsMercury 2medium Mercury 2mediumvsGPT-4o-mininone Claude Sonnet 4.6nonevsMercury 2medium