गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

Gemini 3.6 Flash 1

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
कुल टेस्ट 22 गलत टेस्ट 11 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
कुल टेस्ट 19 गलत टेस्ट 13 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 6.73s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 4.52s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल