गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 6.73s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 27.6s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल