चुकीचे उत्तर अपयश क्रमवारी

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

1585

सर्वाधिक प्रभावित मॉडेल

श्रेणी

215/215

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
एकूण चाचण्या 22 चुकीच्या चाचण्या 6 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 11 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 11 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
एकूण चाचण्या 19 चुकीच्या चाचण्या 13 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 6.73s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 6 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 27.6s

चुकीचे उत्तर अपयशे

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स