चुकीचे उत्तर अपयश क्रमवारी

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

1585

सर्वाधिक प्रभावित मॉडेल

श्रेणी

215/215

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
एकूण चाचण्या 21 चुकीच्या चाचण्या 17 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
एकूण चाचण्या 19 चुकीच्या चाचण्या 14 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
एकूण चाचण्या 19 चुकीच्या चाचण्या 13 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 21.6s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.61s

चुकीचे उत्तर अपयशे

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स