Orodha ya kushindwa kwa Muundo wa ziada

Ona ni modeli gani za AI hukutana na Muundo wa ziada mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Majaribio sahihi ↓.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Kimi K3 1

Kategoria

Katika kategoria Mbinu za kupinga AI20 Katika kategoria Uandishi wa msimbo18 Katika kategoria Mahususi kwa domeni17 Katika kategoria Utatuzi wa mafumbo8 Katika kategoria Uchanganuzi na uchimbaji wa data6 Katika kategoria Ufuataji wa maagizo3 Katika kategoria Mchanganyiko1

42/42

Nafasi	Modeli	Kampuni	Idadi ya Muundo wa ziada	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Jumla ya majaribio 22 Majaribio yenye makosa 10 Jumla ya gharama $0.082 Muda wa majibu (wastani) 32.2s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Jumla ya majaribio 21 Majaribio yenye makosa 11 Jumla ya gharama $0.683 Muda wa majibu (wastani) 41.2s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.200 Muda wa majibu (wastani) 79.1s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.096 Muda wa majibu (wastani) 11.6s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Jumla ya majaribio 18 Majaribio yenye makosa 10 Jumla ya gharama $5.599 Muda wa majibu (wastani) 9.69s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Jumla ya majaribio 18 Majaribio yenye makosa 10 Jumla ya gharama $0.000 Muda wa majibu (wastani) 10.3s
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Jumla ya majaribio 22 Majaribio yenye makosa 13 Jumla ya gharama $0.000 Muda wa majibu (wastani) 137.1s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Jumla ya majaribio 21 Majaribio yenye makosa 13 Jumla ya gharama $0.021 Muda wa majibu (wastani) 2.44s
#112	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
Jumla ya majaribio 22 Majaribio yenye makosa 14 Jumla ya gharama $0.548 Muda wa majibu (wastani) 6.04s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Jumla ya majaribio 22 Majaribio yenye makosa 14 Jumla ya gharama $0.048 Muda wa majibu (wastani) 8.42s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Jumla ya majaribio 21 Majaribio yenye makosa 14 Jumla ya gharama $0.000 Muda wa majibu (wastani) 9.88s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Jumla ya majaribio 18 Majaribio yenye makosa 12 Jumla ya gharama $0.057 Muda wa majibu (wastani) 1.11s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.044 Muda wa majibu (wastani) 5.18s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.077 Muda wa majibu (wastani) 15.9s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.041 Muda wa majibu (wastani) 10.1s

Kushindwa kwa Muundo wa ziada

Chuja miundo

Modeli bora kwa Idadi ya Muundo wa ziada

Idadi ya Muundo wa ziada dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)