गलत उत्तर विफलता रैंकिंग

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

1585

सबसे अधिक प्रभावित मॉडल

Gemini 3.6 Flash 1

श्रेणियाँ

215/215

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 103.8s
#106	Hy3 preview medium	Tencent	3	6.5	$0.018	14/21	16.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 16.3s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
कुल टेस्ट 18 गलत टेस्ट 4 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 9.75s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 9.05s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
कुल टेस्ट 21 गलत टेस्ट 10 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 56.6s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 8.79s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 11.4s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 11.7s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 38.4s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 17.0s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 25.0s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 12.5s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 31.5s
#32	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 64.2s
#36	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 16.2s

गलत उत्तर विफलताएँ

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल