चुकीचे उत्तर अपयश क्रमवारी

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: स्कोअर ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

1585

सर्वाधिक प्रभावित मॉडेल

LFM2-24B-A2B 9

श्रेणी

215/215

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
एकूण चाचण्या 21 चुकीच्या चाचण्या 10 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 56.6s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
एकूण चाचण्या 21 चुकीच्या चाचण्या 11 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 41.2s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
एकूण चाचण्या 21 चुकीच्या चाचण्या 7 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 9.05s
#138	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
एकूण चाचण्या 22 चुकीच्या चाचण्या 14 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 1.65s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
एकूण चाचण्या 18 चुकीच्या चाचण्या 4 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 9.75s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
एकूण चाचण्या 21 चुकीच्या चाचण्या 10 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 174.2s
#135	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
एकूण चाचण्या 22 चुकीच्या चाचण्या 14 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 3.87s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 54.9s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 15 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 12.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 14 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 13.6s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 14 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 25.3s
#130	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
एकूण चाचण्या 22 चुकीच्या चाचण्या 15 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 3.74s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 5.15s
#128	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 1.75s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 21.9s

चुकीचे उत्तर अपयशे

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स