गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

Gemini 3.6 Flash 1

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 4.91s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 46.4s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 46.8s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 2.95s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 58.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 16.7s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल