सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: कुल लागत ↓.

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

GPT-5.5 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $3.679 प्रतिक्रिया समय (औसत) 37.9s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 63.2s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.418 प्रतिक्रिया समय (औसत) 30.1s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.210 प्रतिक्रिया समय (औसत) 14.0s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 4.87s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.960 प्रतिक्रिया समय (औसत) 60.6s
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.927 प्रतिक्रिया समय (औसत) 53.5s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.907 प्रतिक्रिया समय (औसत) 10.1s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 130.3s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 14.4s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 234.2s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.679 प्रतिक्रिया समय (औसत) 2.25s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.614 प्रतिक्रिया समय (औसत) 44.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 52.9s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल