गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

1558

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

209/209

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.53s
#142	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 12.9s
#151	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 6.70s
#161	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 5.52s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 3.50s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
कुल टेस्ट 21 गलत टेस्ट 15 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.82s
#176	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 9.15s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 12.2s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 9.61s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
कुल टेस्ट 21 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.76s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
कुल टेस्ट 22 गलत टेस्ट 20 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 1.45s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
कुल टेस्ट 19 गलत टेस्ट 16 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.62s
#103	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 4.76s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 9.85s
#118	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 6.20s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल