ترتيب النماذج لفئة معلومات عامة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في معلومات عامة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة معلومات عامة

3.1

أفضل نموذج

Gemini 3.5 Flash 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة133 مع سبب الفشل خطأ API13 مع سبب الفشل لا توجد إجابة8

169/169

الترتيب	النموذج	الشركة	درجة معلومات عامة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#30	Qwen3.6 Plus medium	Qwen	3.0	7.8	$0.294	0/1	47.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.294 زمن الاستجابة (المتوسط) 47.5s
#31	Claude Sonnet 4.6 medium	Anthropic	3.0	7.8	$1.418	0/1	30.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.418 زمن الاستجابة (المتوسط) 30.1s
#32	Gemini 3.1 Flash Lite Preview medium	Google	3.0	7.8	$0.068	0/1	2.68s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	3.0	7.8	$0.317	0/1	92.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	3.0	7.8	$0.071	0/1	3.08s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.071 زمن الاستجابة (المتوسط) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	3.0	7.8	$0.889	0/1	130.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.889 زمن الاستجابة (المتوسط) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	3.0	7.7	$0.588	0/1	52.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.588 زمن الاستجابة (المتوسط) 52.9s
#37	Grok 4.3 medium	X AI	3.0	7.7	$0.614	0/1	44.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.614 زمن الاستجابة (المتوسط) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	3.0	7.7	$2.053	0/1	63.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $2.053 زمن الاستجابة (المتوسط) 63.2s
#39	Step 3.7 Flash low	Stepfun	3.0	7.7	$0.341	0/1	124.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.341 زمن الاستجابة (المتوسط) 124.8s
#40	MiniMax M3 medium	Minimax	3.0	7.6	$0.131	0/1	100.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.131 زمن الاستجابة (المتوسط) 100.8s
#41	DeepSeek V4 Pro high	DeepSeek	3.0	7.6	$0.157	0/1	34.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.157 زمن الاستجابة (المتوسط) 34.0s
#42	Grok Build 0.1 medium	X AI	3.0	7.6	$0.927	0/1	53.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.927 زمن الاستجابة (المتوسط) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	3.0	7.5	$0.348	0/1	83.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.348 زمن الاستجابة (المتوسط) 83.9s
#44	Mercury 2 medium	Inception	3.0	7.5	$0.058	0/1	2.58s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.058 زمن الاستجابة (المتوسط) 2.58s

ترتيب معلومات عامة

تصفية النماذج

أفضل النماذج حسب درجة معلومات عامة

درجة معلومات عامة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)