गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

Gemini 3.6 Flash 1

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 34.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 18.7s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 79.1s
#51	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 75.0s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 52.1s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 23.0s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 7.28s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 32.2s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 84.2s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 13.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 5.31s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 25.9s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 89.2s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल