Orodha ya modeli za Mbinu za kupinga AI

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Mbinu za kupinga AI, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↓.

Modeli zilizoonyeshwa

Wastani wa Alama ya Mbinu za kupinga AI

7.2

Modeli bora

Seed-2.0-Mini 6.6

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi293 Kwa sababu ya kushindwa Hakufuata maelekezo33 Kwa sababu ya kushindwa Muundo wa ziada20 Kwa sababu ya kushindwa Hitilafu ya API14 Kwa sababu ya kushindwa Hakuna jibu4 Kwa sababu ya kushindwa Muda umeisha4

216/216

Nafasi	Modeli	Kampuni	Alama ya Mbinu za kupinga AI	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	4/4	10.2s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $3.112 Muda wa majibu (wastani) 10.2s
#127	gpt-oss-120b medium	OpenAI	6.7	6.1	$0.019	2/4	10.2s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.019 Muda wa majibu (wastani) 10.2s
#194	Cobuddy medium	Baidu	8.7	4.7	$0.000	3/4	10.00s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 10.00s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	4/4	9.90s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.405 Muda wa majibu (wastani) 9.90s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	4/4	9.75s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $1.046 Muda wa majibu (wastani) 9.75s
#33	Step 3.7 Flash medium	Stepfun	8.7	8.0	$0.515	3/4	9.65s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.515 Muda wa majibu (wastani) 9.65s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	4/4	9.65s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.478 Muda wa majibu (wastani) 9.65s
#179	DeepSeek V3.2 none	DeepSeek	3.2	5.0	$0.054	0/4	9.35s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.054 Muda wa majibu (wastani) 9.35s
#159	Hy3 preview low	Tencent	8.3	5.5	$0.015	3/4	9.32s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 9.32s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	4/4	9.04s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.391 Muda wa majibu (wastani) 9.04s
#77	Grok 4.3 medium	X AI	10.0	7.1	$0.779	4/4	8.83s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.779 Muda wa majibu (wastani) 8.83s
#193	Qwen3 Coder Next medium	Qwen	3.5	4.7	$0.032	0/4	8.64s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.032 Muda wa majibu (wastani) 8.64s
#55	Nemotron 3 Ultra medium	NVIDIA	10.0	7.5	$0.774	4/4	8.62s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.774 Muda wa majibu (wastani) 8.62s
#30	Muse Spark 1.1 high	Meta	7.5	8.1	$1.694	2/4	8.60s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $1.694 Muda wa majibu (wastani) 8.60s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	4/4	8.58s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.267 Muda wa majibu (wastani) 8.58s

Orodha ya Mbinu za kupinga AI

Chuja miundo

Modeli bora kwa Alama ya Mbinu za kupinga AI

Alama ya Mbinu za kupinga AI dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)