قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-4o-mini

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Inception: Mercury 2 medium الإصدار: 2026-02-24	OpenAI: GPT-4o-mini none الإصدار: 2024-07-18
الترتيب	#35	#46
متوسط الدرجة	54	41
الاتساق	83	100
التكلفة لكل نتيجة	0.622	0.111
إجمالي التكلفة	$0.044	$0.005
زمن الاستجابة (المتوسط)	2.47s	2.21s
زمن الاستجابة (الحد الأقصى)	14.63s	7.58s
زمن الاستجابة (الإجمالي)	34.56s	17.69s
اختبارات صحيحة
معدل النجاح لكل محاولة	57.8%	26.7%
اختبارات غير مستقرة	3	0
رموز الإخراج	3,571	1,528
رموز الاستدلال	45,379	0

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	73	98	66.7%	0		1.30s	2,531	2,410
OpenAI: GPT-4o-mini	40	100	33.3%	0		1.83s	180	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		3.28s	268	4,887
OpenAI: GPT-4o-mini	100	100	0.0%	0		7.58s	568	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	59	83.3%	1		1.11s	183	1,656
OpenAI: GPT-4o-mini	99	100	100.0%	0		1.27s	183	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	72	11.1%	1		6.48s	41	30,754
OpenAI: GPT-4o-mini	100	100	0.0%	0		637ms	15	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.07s	14	958
OpenAI: GPT-4o-mini	45	100	0.0%	0		1.27s	69	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	17	75	22.2%	1		934ms	354	2,758
OpenAI: GPT-4o-mini	23	100	0.0%	0		1.30s	308	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.89s	180	1,956
OpenAI: GPT-4o-mini	100	100	100.0%	0		2.51s	205	0

مقارنة سريعة

تبديل زوج المقارنة

Gemini 2.5 FlashnonevsMercury 2medium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsGLM 5none Mercury 2mediumvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGPT-4o-mininone Mercury 2mediumvsQwen3.5-35B-A3Bnone GPT-4o-mininonevsQwen3 Coder Nextmedium GPT-4o-mininonevsGLM 4.7 Flashmedium Mercury 2mediumvsGPT-5.4none Mercury 2mediumvsQwen3.5 Plus 2026-02-15none