डोमेन-विशिष्ट x समय समाप्त रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में समय समाप्त आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Claude Opus 4.7 1

विफलता के कारण

गलत उत्तर412 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट43 कोडिंग26 पहेली समाधान5 संयुक्त5 Samanya Buddhimatta4 एंटी-एआई ट्रिक्स4 डेटा पार्सिंग और निष्कर्षण1 निर्देश पालन1

32/32

रैंक	मॉडल	कंपनी	समय समाप्त संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#15	Claude Opus 4.7 medium	Anthropic	1	7.7	$1.477	2/3	1.17s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 1.17s
#21	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 77.8s
#26	GPT-5 Mini medium	OpenAI	1	3.6	$0.237	0/3	44.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 44.6s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.222 प्रतिक्रिया समय (औसत) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 0ms
#42	GLM 5 medium	Z.ai	1	3.5	$0.307	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 0ms
#49	GLM 5 Turbo medium	Z.ai	1	2.9	$0.323	0/3	71.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 71.1s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	$0.437	1/3	17.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 17.5s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 79.5s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 339.9s
#74	GLM 5.1 medium	Z.ai	1	5.3	$0.535	1/3	29.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 29.8s
#76	DeepSeek V3.2 medium	DeepSeek	1	2.9	$0.078	0/3	24.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 24.3s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 137.3s
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 86.1s

मॉडल फ़िल्टर करें

समय समाप्त संख्या के अनुसार शीर्ष मॉडल

समय समाप्त संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: समय समाप्त

मॉडल फ़िल्टर करें

समय समाप्त संख्या के अनुसार शीर्ष मॉडल

समय समाप्त संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल