गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

कुल विफलताएँ

1558

सबसे अधिक प्रभावित मॉडल

श्रेणियाँ

209/209

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#189	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 829ms
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 1.20s
#155	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 19.2s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.99s
#177	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.97s
#180	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.57s
#111	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 5.18s
#139	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 2.07s
#159	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 1.50s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.55s
#166	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 9.12s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 4.62s
#169	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 19.2s
#116	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 4.40s
#125	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 25.3s

1 2 14

→

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल