चुकीचे उत्तर अपयश क्रमवारी

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: अपयशांची संख्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

1585

सर्वाधिक प्रभावित मॉडेल

Gemini 3.6 Flash 1

श्रेणी

215/215

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 25.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 6 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 12.7s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
एकूण चाचण्या 21 चुकीच्या चाचण्या 7 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 23.0s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 89.2s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 111.9s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 4.91s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 46.8s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 11 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 92.5s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 58.1s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 84.8s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
एकूण चाचण्या 21 चुकीच्या चाचण्या 10 एकूण खर्च $0.108 प्रतिसाद वेळ (सरासरी) 174.2s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
एकूण चाचण्या 18 चुकीच्या चाचण्या 8 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 62.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
एकूण चाचण्या 21 चुकीच्या चाचण्या 11 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 24.6s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
एकूण चाचण्या 18 चुकीच्या चाचण्या 10 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 9.69s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
एकूण चाचण्या 18 चुकीच्या चाचण्या 10 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 10.3s

चुकीचे उत्तर अपयशे

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स