Orodha ya modeli za Mbinu za kupinga AI

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Mbinu za kupinga AI, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↓.

Modeli zilizoonyeshwa

Wastani wa Alama ya Mbinu za kupinga AI

7.1

Modeli bora

Seed-2.0-Mini 6.6

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi293 Kwa sababu ya kushindwa Hakufuata maelekezo33 Kwa sababu ya kushindwa Muundo wa ziada20 Kwa sababu ya kushindwa Hitilafu ya API14 Kwa sababu ya kushindwa Hakuna jibu4 Kwa sababu ya kushindwa Muda umeisha4

210/210

Nafasi	Modeli	Kampuni	Alama ya Mbinu za kupinga AI	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#80	Seed-2.0-Mini medium	Bytedance Seed	6.6	7.0	$0.101	2/4	74.7s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.101 Muda wa majibu (wastani) 74.7s
#137	North Mini Code medium	Cohere	8.4	5.9	$0.000	3/4	64.8s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 64.8s
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	4/4	59.1s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.139 Muda wa majibu (wastani) 59.1s
#77	Kimi K2.5 medium	Moonshot AI	7.3	7.0	$0.600	2/4	51.4s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.600 Muda wa majibu (wastani) 51.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	8.2	7.5	$0.437	3/4	45.8s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.437 Muda wa majibu (wastani) 45.8s
#163	Gemini 3.1 Flash Lite Preview high	Google	7.5	5.3	$2.310	3/3	43.9s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $2.310 Muda wa majibu (wastani) 43.9s
#179	Ring-2.6-1T none	Inclusionai	9.2	4.8	$0.026	3/4	43.3s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.026 Muda wa majibu (wastani) 43.3s
#108	Ring-2.6-1T medium	Inclusionai	10.0	6.3	$0.103	4/4	42.2s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.103 Muda wa majibu (wastani) 42.2s
#102	Laguna XS 2.1 medium	Poolside	4.8	6.5	$0.068	1/4	42.0s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.068 Muda wa majibu (wastani) 42.0s
#130	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	4/4	40.6s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.108 Muda wa majibu (wastani) 40.6s
#172	MiniMax M2.7 medium	Minimax	7.9	5.0	$0.163	2/4	40.3s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.163 Muda wa majibu (wastani) 40.3s
#143	Gemini 3.1 Flash Lite high	Google	8.7	5.6	$2.044	3/4	37.2s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $2.044 Muda wa majibu (wastani) 37.2s
#209	Step 3.5 Flash none	Stepfun	10.0	2.3	$0.020	4/4	35.0s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.020 Muda wa majibu (wastani) 35.0s
#204	Qwen3.5-9B medium	Qwen	5.1	3.8	$0.036	1/4	34.4s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.036 Muda wa majibu (wastani) 34.4s
#206	gpt-oss-120b none	OpenAI	6.5	3.7	$0.010	2/4	32.8s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.010 Muda wa majibu (wastani) 32.8s

Orodha ya Mbinu za kupinga AI

Chuja miundo

Modeli bora kwa Alama ya Mbinu za kupinga AI

Alama ya Mbinu za kupinga AI dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)