Orodha ya kushindwa kwa Muundo wa ziada

Ona ni modeli gani za AI hukutana na Muundo wa ziada mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Muda wa majibu (wastani) ↓.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

North Mini Code 2

Kategoria

Katika kategoria Mbinu za kupinga AI20 Katika kategoria Uandishi wa msimbo18 Katika kategoria Mahususi kwa domeni17 Katika kategoria Utatuzi wa mafumbo8 Katika kategoria Uchanganuzi na uchimbaji wa data6 Katika kategoria Ufuataji wa maagizo3 Katika kategoria Mchanganyiko1

42/42

Nafasi	Modeli	Kampuni	Idadi ya Muundo wa ziada	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Jumla ya majaribio 22 Majaribio yenye makosa 10 Jumla ya gharama $0.777 Muda wa majibu (wastani) 29.5s
#40	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$2.057	14/22	25.9s
Jumla ya majaribio 22 Majaribio yenye makosa 8 Jumla ya gharama $2.057 Muda wa majibu (wastani) 25.9s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Jumla ya majaribio 21 Majaribio yenye makosa 9 Jumla ya gharama $0.333 Muda wa majibu (wastani) 22.2s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Jumla ya majaribio 21 Majaribio yenye makosa 9 Jumla ya gharama $0.043 Muda wa majibu (wastani) 20.1s
#173	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Jumla ya majaribio 22 Majaribio yenye makosa 16 Jumla ya gharama $0.054 Muda wa majibu (wastani) 18.3s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.077 Muda wa majibu (wastani) 15.9s
#199	Hy3 preview none	Tencent	1	4.0	$0.003	4/21	12.9s
Jumla ya majaribio 21 Majaribio yenye makosa 17 Jumla ya gharama $0.003 Muda wa majibu (wastani) 12.9s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Jumla ya majaribio 22 Majaribio yenye makosa 6 Jumla ya gharama $2.077 Muda wa majibu (wastani) 12.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	3	4.8	$0.067	5/22	12.2s
Jumla ya majaribio 22 Majaribio yenye makosa 17 Jumla ya gharama $0.067 Muda wa majibu (wastani) 12.2s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.096 Muda wa majibu (wastani) 11.6s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Jumla ya majaribio 18 Majaribio yenye makosa 10 Jumla ya gharama $0.000 Muda wa majibu (wastani) 10.3s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.041 Muda wa majibu (wastani) 10.1s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Jumla ya majaribio 21 Majaribio yenye makosa 14 Jumla ya gharama $0.000 Muda wa majibu (wastani) 9.88s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Jumla ya majaribio 18 Majaribio yenye makosa 10 Jumla ya gharama $5.599 Muda wa majibu (wastani) 9.69s
#166	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Jumla ya majaribio 22 Majaribio yenye makosa 17 Jumla ya gharama $0.025 Muda wa majibu (wastani) 9.12s

Kushindwa kwa Muundo wa ziada

Chuja miundo

Modeli bora kwa Idadi ya Muundo wa ziada

Idadi ya Muundo wa ziada dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)