قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5 Nano

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Inception: Mercury 2 none الإصدار: 2026-02-24	OpenAI: GPT-5 Nano medium الإصدار: 2025-08-07
الترتيب	#50	#34
متوسط الدرجة	34	57
الاتساق	89	68
التكلفة لكل نتيجة	0.147	0.829
إجمالي التكلفة	$0.006	$0.058
زمن الاستجابة (المتوسط)	594ms	51.74s
زمن الاستجابة (الحد الأقصى)	1.27s	204.02s
زمن الاستجابة (الإجمالي)	8.91s	413.95s
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	64.4%
اختبارات غير مستقرة	2	6
رموز الإخراج	1,144	4,184
رموز الاستدلال	0	137,472

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		466ms	274	0
OpenAI: GPT-5 Nano	70	100	66.7%	0		37.73s	1,107	19,968

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		606ms	131	0
OpenAI: GPT-5 Nano	100	100	100.0%	0		65.96s	578	17,984

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	59	83.3%	1		667ms	180	0
OpenAI: GPT-5 Nano	100	17	50.0%	2		21.42s	453	10,560

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	40	72	44.4%	1		534ms	46	0
OpenAI: GPT-5 Nano	40	44	55.6%	2		204.02s	237	64,448

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	100	50.0%	0		551ms	82	0
OpenAI: GPT-5 Nano	90	68	83.3%	1		11.90s	382	4,096

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		533ms	234	0
OpenAI: GPT-5 Nano	40	72	44.4%	1		19.81s	869	13,440

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.27s	197	0
OpenAI: GPT-5 Nano	100	100	100.0%	0		33.30s	558	6,976

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2nonevsQwen3 Coder Nextmedium GPT-5 NanomediumvsGLM 5none Mercury 2nonevsGLM 4.7 Flashmedium Gemini 2.5 FlashnonevsGPT-5 Nanomedium DeepSeek V3.2nonevsGPT-5 Nanomedium GPT-5 NanomediumvsQwen3.5-122B-A10Bnone GPT-5 NanomediumvsQwen3.5 Plus 2026-02-15none GPT-5 NanomediumvsQwen3.5-Flashnone GPT-5 NanomediumvsQwen3.5-27Bnone GPT-5 NanomediumvsQwen3.5-35B-A3Bnone Claude Sonnet 4.6nonevsGPT-5 Nanomedium Gemini 3 Flash PreviewnonevsGPT-5 Nanomedium