गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.046 प्रतिक्रिया समय (औसत) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.078 प्रतिक्रिया समय (औसत) 68.6s
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 99.0s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 2.65s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 32.2s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 20.1s

←

1 9 10 11 15

→

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल