सामान्य ज्ञान मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि सामान्य ज्ञान में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: कुल लागत ↑.

दिखाए गए मॉडल

औसत सामान्य ज्ञान स्कोर

3.1

सर्वश्रेष्ठ मॉडल

North Mini Code 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ133 विफलता कारण API त्रुटि के साथ13 विफलता कारण कोई उत्तर नहीं के साथ8

169/169

रैंक	मॉडल	कंपनी	सामान्य ज्ञान स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#49	Claude Opus 4.7 none	Anthropic	3.0	7.4	$0.505	0/1	1.46s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 1.46s
#3	Qwen3.7 Max medium	Qwen	3.0	9.4	$0.523	0/1	33.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.523 प्रतिक्रिया समय (औसत) 33.4s
#27	GPT-5.4 Mini medium	OpenAI	3.0	8.0	$0.526	0/1	30.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.526 प्रतिक्रिया समय (औसत) 30.1s
#29	Qwen3.5-27B medium	Qwen	3.0	7.9	$0.536	0/1	85.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 85.1s
#57	Claude Opus 4.8 none	Anthropic	3.0	7.2	$0.539	0/1	3.41s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.41s
#160	Grok Build 0.1 none	X AI	3.0	4.2	$0.547	0/1	36.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 36.1s
#22	GPT-5.2 medium	OpenAI	3.0	8.4	$0.548	0/1	28.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 28.2s
#8	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.582	1/1	2.75s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.582 प्रतिक्रिया समय (औसत) 2.75s
#65	Kimi K2.7 Code medium	Moonshot AI	3.0	7.0	$0.583	0/1	341.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.583 प्रतिक्रिया समय (औसत) 341.8s
#36	Qwen3.5-122B-A10B medium	Qwen	3.0	7.7	$0.588	0/1	52.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 52.9s
#53	Grok 4.20 medium	X AI	3.0	7.3	$0.609	0/1	63.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 63.5s
#37	Grok 4.3 medium	X AI	3.0	7.7	$0.614	0/1	44.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 44.5s
#2	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.667	1/1	5.50s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.667 प्रतिक्रिया समय (औसत) 5.50s
#13	Claude Opus 4.7 medium	Anthropic	3.0	8.7	$0.679	0/1	2.25s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.679 प्रतिक्रिया समय (औसत) 2.25s
#73	Mimo V2 Omni medium	Xiaomi	3.0	6.8	$0.683	0/1	234.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 234.2s

←

1 9 10 11 12

→

सामान्य ज्ञान रैंकिंग

मॉडल फ़िल्टर करें

सामान्य ज्ञान स्कोर के अनुसार शीर्ष मॉडल

सामान्य ज्ञान स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल