चुकीचे उत्तर अपयश क्रमवारी

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

1642

सर्वाधिक प्रभावित मॉडेल

श्रेणी

219/219

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 5.04s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
एकूण चाचण्या 21 चुकीच्या चाचण्या 13 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 11.9s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
एकूण चाचण्या 21 चुकीच्या चाचण्या 14 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 9.88s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
एकूण चाचण्या 22 चुकीच्या चाचण्या 14 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 7.64s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
एकूण चाचण्या 21 चुकीच्या चाचण्या 13 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.44s
#201	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
एकूण चाचण्या 18 चुकीच्या चाचण्या 12 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.19s
#202	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
एकूण चाचण्या 19 चुकीच्या चाचण्या 15 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 2.89s
#207	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
एकूण चाचण्या 18 चुकीच्या चाचण्या 12 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
एकूण चाचण्या 22 चुकीच्या चाचण्या 11 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.369 प्रतिसाद वेळ (सरासरी) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 54.9s

चुकीचे उत्तर अपयशे

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स