Orodha ya modeli za Mbinu za kupinga AI

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Mbinu za kupinga AI, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Wastani wa Alama ya Mbinu za kupinga AI

7.2

Modeli bora

Mistral Small 4 3.4

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi293 Kwa sababu ya kushindwa Hakufuata maelekezo33 Kwa sababu ya kushindwa Muundo wa ziada20 Kwa sababu ya kushindwa Hitilafu ya API14 Kwa sababu ya kushindwa Hakuna jibu4 Kwa sababu ya kushindwa Muda umeisha4

216/216

Nafasi	Modeli	Kampuni	Alama ya Mbinu za kupinga AI	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	4/4	2.57s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $1.976 Muda wa majibu (wastani) 2.57s
#5	GPT-5.6 Sol low	OpenAI	8.3	9.5	$0.971	3/4	2.60s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.971 Muda wa majibu (wastani) 2.60s
#103	Qwen3.6 Max Preview none	Qwen	5.2	6.6	$0.231	1/4	2.63s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.231 Muda wa majibu (wastani) 2.63s
#173	Mistral Small 4 medium	Mistral	5.6	5.1	$0.096	1/4	2.67s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.096 Muda wa majibu (wastani) 2.67s
#160	MiMo-V2.5-Pro none	Xiaomi	3.3	5.5	$0.068	0/4	2.67s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.068 Muda wa majibu (wastani) 2.67s
#204	Laguna Xs.2 medium	Poolside	6.9	4.1	$0.015	2/4	2.68s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.015 Muda wa majibu (wastani) 2.68s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	5.3	4.8	$0.067	1/4	2.68s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.067 Muda wa majibu (wastani) 2.68s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	4/4	2.75s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.683 Muda wa majibu (wastani) 2.75s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	4/4	2.75s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.935 Muda wa majibu (wastani) 2.75s
#154	Owl Alpha none	Openrouter	3.4	5.6	$0.000	0/4	2.78s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.78s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	4/4	2.81s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $1.316 Muda wa majibu (wastani) 2.81s
#158	Qwen3.6 27B none	Qwen	3.8	5.5	$0.087	0/4	2.83s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.087 Muda wa majibu (wastani) 2.83s
#176	GLM 5 Turbo none	Z.ai	3.0	5.1	$0.047	0/4	2.84s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.047 Muda wa majibu (wastani) 2.84s
#115	Mimo V2 PRO medium	Xiaomi	10.0	6.3	$0.333	4/4	2.86s
Jumla ya majaribio 4 Majaribio yenye makosa 0 Jumla ya gharama $0.333 Muda wa majibu (wastani) 2.86s
#117	LongCat 2.0 none	Meituan	4.8	6.3	$0.044	1/4	2.87s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.044 Muda wa majibu (wastani) 2.87s

Orodha ya Mbinu za kupinga AI

Chuja miundo

Modeli bora kwa Alama ya Mbinu za kupinga AI

Alama ya Mbinu za kupinga AI dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)