Orodha ya modeli za Mbinu za kupinga AI

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Mbinu za kupinga AI, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Kipimo ↑.

Modeli zilizoonyeshwa

Wastani wa Alama ya Mbinu za kupinga AI

7.2

Modeli bora

LFM2-24B-A2B 2.5

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi293 Kwa sababu ya kushindwa Hakufuata maelekezo33 Kwa sababu ya kushindwa Muundo wa ziada20 Kwa sababu ya kushindwa Hitilafu ya API14 Kwa sababu ya kushindwa Hakuna jibu4 Kwa sababu ya kushindwa Muda umeisha4

216/216

Nafasi	Modeli	Kampuni	Alama ya Mbinu za kupinga AI	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#182	GLM 4.7 Flash none	Z.ai	5.2	4.9	$0.016	1/4	5.51s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.016 Muda wa majibu (wastani) 5.51s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	5.3	4.8	$0.067	1/4	2.68s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.067 Muda wa majibu (wastani) 2.68s
#166	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/4	755ms
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 755ms
#118	Claude Sonnet 5 none	Anthropic	5.3	6.3	$0.548	1/4	3.60s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.548 Muda wa majibu (wastani) 3.60s
#51	MiniMax M3 medium	Minimax	5.5	7.6	$0.286	1/4	14.9s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.286 Muda wa majibu (wastani) 14.9s
#173	Mistral Small 4 medium	Mistral	5.6	5.1	$0.096	1/4	2.67s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.096 Muda wa majibu (wastani) 2.67s
#50	DeepSeek V4 Pro high	DeepSeek	5.7	7.7	$0.200	1/4	25.7s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.200 Muda wa majibu (wastani) 25.7s
#47	Claude Opus 4.6 medium	Anthropic	6.4	7.7	$3.059	2/4	7.45s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $3.059 Muda wa majibu (wastani) 7.45s
#141	Hy3 preview high	Tencent	6.4	5.9	$0.048	2/4	15.1s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.048 Muda wa majibu (wastani) 15.1s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	6.4	3.4	$0.000	2/4	1.20s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.20s
#134	GPT-5 Nano medium	OpenAI	6.5	6.1	$0.114	2/4	25.5s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.114 Muda wa majibu (wastani) 25.5s
#44	Claude Sonnet 4.6 medium	Anthropic	6.5	7.8	$2.057	2/4	2.98s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $2.057 Muda wa majibu (wastani) 2.98s
#63	Qwen3.7 Max none	Qwen	6.5	7.4	$0.197	2/4	1.08s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.197 Muda wa majibu (wastani) 1.08s
#70	Claude Opus 4.8 none	Anthropic	6.5	7.3	$1.166	2/4	3.40s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $1.166 Muda wa majibu (wastani) 3.40s
#75	Qwen3.7 Plus none	Qwen	6.5	7.2	$0.106	2/4	1.38s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.106 Muda wa majibu (wastani) 1.38s

Orodha ya Mbinu za kupinga AI

Chuja miundo

Modeli bora kwa Alama ya Mbinu za kupinga AI

Alama ya Mbinu za kupinga AI dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)