AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.5-122B-A10B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-16

المقياس	Claude Opus 4.7 Claude Opus 4.7 none الإصدار: 2026-04-16	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24

المقياس	Claude Opus 4.7 Claude Opus 4.7 none الإصدار: 2026-04-16	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24
النتيجة	9.2	8.1
الترتيب	#4	#19
الاتساق	10.0	8.6
اختبارات صحيحة
معدل النجاح لكل محاولة	88.9%	79.6%
اختبارات غير مستقرة	0	3
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	3.155	4.060
إجمالي التكلفة	$0.505	$0.528
??? ???????	$5.000 / 1M	$0.260 / 1M
??? ???????	$25.000 / 1M	$2.080 / 1M
رموز الإخراج	6,326	17,635
رموز الاستدلال	0	162,668
زمن الاستجابة (المتوسط)	3.13s	31.38s
زمن الاستجابة (الحد الأقصى)	18.27s	119.29s
زمن الاستجابة (الإجمالي)	56.33s	564.84s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
Qwen3.5-122B-A10B	4.7	1.6	66.7%	1		70.98s	322	10,694

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.18s	289	26,165

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium Claude Opus 4.7nonevsGemini 3 Flash Previewlow Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium GPT-5.3 ChatnonevsQwen3.5-122B-A10Bmedium Claude Opus 4.7nonevsSeed-2.0-Litemedium Claude Opus 4.7nonevsGPT-5.3-Codexmedium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium Claude Opus 4.7nonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsQwen3.6 Plus Previewmediumمتاح مجانًا