गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
कुल टेस्ट 19 गलत टेस्ट 12 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
कुल टेस्ट 19 गलत टेस्ट 15 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.1s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 15.6s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 61.7s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 11.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 9.48s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल