ترتيب النماذج لفئة معلومات عامة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في معلومات عامة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: إجمالي التكلفة ↑.

النماذج المعروضة

متوسط درجة معلومات عامة

3.1

أفضل نموذج

North Mini Code 3.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة133 مع سبب الفشل خطأ API13 مع سبب الفشل لا توجد إجابة8

169/169

الترتيب	النموذج	الشركة	درجة معلومات عامة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#117	DeepSeek V4 Flash none	DeepSeek	3.0	5.5	$0.007	0/1	3.07s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 3.07s
#161	Grok 4.1 Fast none	X AI	3.0	4.0	$0.008	0/1	731ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 731ms
#137	Trinity Large Preview none	Arcee AI	3.0	5.0	$0.008	0/1	777ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 777ms
#148	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.008	0/1	399ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 399ms
#130	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.009	0/1	601ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 601ms
#164	gpt-oss-120b none	OpenAI	3.0	4.0	$0.010	0/1	47.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 47.3s
#145	GPT-5.4 Nano none	OpenAI	3.0	4.8	$0.011	0/1	773ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 773ms
#151	Mercury 2 none	Inception	3.0	4.6	$0.011	0/1	548ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 548ms
#103	Qwen3.5-35B-A3B none	Qwen	3.0	5.9	$0.012	0/1	493ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.012 زمن الاستجابة (المتوسط) 493ms
#78	gpt-oss-120b medium	OpenAI	3.0	6.7	$0.013	0/1	26.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 26.5s
#96	Gemini 3.1 Flash Lite none	Google	3.0	6.1	$0.013	0/1	733ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 733ms
#94	Gemini 3.1 Flash Lite minimal	Google	3.0	6.1	$0.013	0/1	724ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 724ms
#102	Qwen3.6 Flash none	Qwen	3.0	6.0	$0.015	0/1	649ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 649ms
#104	Qwen3.5-27B none	Qwen	3.0	5.9	$0.015	0/1	599ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 599ms
#93	Gemini 2.5 Flash none	Google	3.0	6.2	$0.016	0/1	1.15s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 1.15s

ترتيب معلومات عامة

تصفية النماذج

أفضل النماذج حسب درجة معلومات عامة

درجة معلومات عامة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)