डोमेन-विशिष्ट x समय समाप्त रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में समय समाप्त आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Kimi K3 2

विफलता के कारण

गलत उत्तर412 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट43 कोडिंग26 पहेली समाधान5 संयुक्त5 Samanya Buddhimatta4 एंटी-एआई ट्रिक्स4 डेटा पार्सिंग और निष्कर्षण1 निर्देश पालन1

32/32

रैंक	मॉडल	कंपनी	समय समाप्त संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#33	Kimi K3 max	Moonshot AI	2	5.9	$3.112	1/3	490.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 490.1s
#97	LongCat 2.0 high	Meituan	2	3.6	$0.469	0/3	400.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 400.3s
#60	LongCat 2.0 medium	Meituan	1	2.9	$0.478	0/3	339.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 339.9s
#190	MiniMax M2.5 medium	Minimax	1	2.9	$0.340	0/3	237.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 237.3s
#47	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/3	233.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 233.1s
#52	Kimi K2.7 Code medium	Moonshot AI	2	5.5	$0.751	1/3	213.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 213.3s
#128	GPT-5 Nano medium	OpenAI	1	5.2	$0.114	1/3	204.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 204.0s
#68	Kimi K2.6 medium	Moonshot AI	2	5.3	$1.036	1/3	202.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 202.4s
#114	Qwen3.5-Flash medium	Qwen	1	5.3	$0.139	1/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 146.5s
#204	Qwen3.5-9B medium	Qwen	3	3.6	$0.036	0/3	137.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 137.7s
#77	Kimi K2.5 medium	Moonshot AI	1	3.5	$0.600	0/3	137.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 137.3s
#185	Grok 4.1 Fast medium	X AI	1	5.8	$0.069	1/3	121.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 121.8s
#119	Qwen3.5-35B-A3B medium	Qwen	2	4.1	$0.837	0/3	88.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 88.3s
#91	LongCat 2.0 low	Meituan	1	3.0	$0.391	0/3	86.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 86.1s
#58	Qwen3.5-27B medium	Qwen	1	5.3	$1.627	1/3	79.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 79.5s

मॉडल फ़िल्टर करें

समय समाप्त संख्या के अनुसार शीर्ष मॉडल

समय समाप्त संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: समय समाप्त

मॉडल फ़िल्टर करें

समय समाप्त संख्या के अनुसार शीर्ष मॉडल

समय समाप्त संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल