AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.5 Plus 2026-02-15

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-16

المقياس	Claude Opus 4.7 Claude Opus 4.7 none الإصدار: 2026-04-16	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium الإصدار: 2026-02-15

المقياس	Claude Opus 4.7 Claude Opus 4.7 none الإصدار: 2026-04-16	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium الإصدار: 2026-02-15
النتيجة	9.2	8.5
الترتيب	#4	#8
الاتساق	10.0	9.1
اختبارات صحيحة
معدل النجاح لكل محاولة	88.9%	83.3%
اختبارات غير مستقرة	0	2
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	3.155	1.566
إجمالي التكلفة	$0.505	$0.220
??? ???????	$5.000 / 1M	$0.260 / 1M
??? ???????	$25.000 / 1M	$1.560 / 1M
رموز الإخراج	6,326	2,121
رموز الاستدلال	0	111,889
زمن الاستجابة (المتوسط)	3.13s	46.56s
زمن الاستجابة (الحد الأقصى)	18.27s	120.91s
زمن الاستجابة (الإجمالي)	56.33s	512.20s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
Qwen3.5 Plus 2026-02-15	8.2	7.9	83.3%	1		45.78s	205	21,236

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		120.91s	367	19,367

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.85s	421	7,906

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.91s	270	14,916

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		17.50s	35	16,680

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
Qwen3.5 Plus 2026-02-15	4.7	1.6	66.7%	1		79.86s	73	8,675

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		31.93s	101	7,704

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		34.57s	340	14,496

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		7.54s	309	909

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewlowvsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsGemini 3 Flash Previewlow Gemini 3 Flash PreviewnonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-02-15medium GPT-5.2 ChatnonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsSeed-2.0-Litemedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsGPT-5.3-Codexmedium Claude Opus 4.7nonevsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Opus 4.7nonevsQwen3.5-27Bmedium Claude Opus 4.7nonevsGemini 3 PRO Previewmedium