गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

Gemini 3.6 Flash 1

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 13.6s
#135	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 3.87s
#138	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.65s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 52.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 8.42s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.64s
#153	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.27s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 9.88s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
कुल टेस्ट 21 गलत टेस्ट 14 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 39.9s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.19s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.70s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 1.11s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 5.18s
#130	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 3.74s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
कुल टेस्ट 22 गलत टेस्ट 15 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.7s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल