गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

1642

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

219/219

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 2.65s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 32.2s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
कुल टेस्ट 21 गलत टेस्ट 9 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 20.1s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
कुल टेस्ट 21 गलत टेस्ट 11 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 41.2s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 52.0s
#188	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
कुल टेस्ट 22 गलत टेस्ट 13 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 55.1s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 8.79s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 11.4s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 11.7s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 38.4s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 17.0s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 25.0s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 12.5s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 31.5s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल