Orodha ya modeli za Utatuzi wa mafumbo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Utatuzi wa mafumbo, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↓.

Modeli zilizoonyeshwa

Wastani wa Alama ya Utatuzi wa mafumbo

6.7

Modeli bora

Muse Spark 1.1 7.8

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi204 Kwa sababu ya kushindwa Hakufuata maelekezo90 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muundo wa ziada8 Kwa sababu ya kushindwa Muda umeisha5 Kwa sababu ya kushindwa Hakuna jibu3

216/216

Nafasi	Modeli	Kampuni	Alama ya Utatuzi wa mafumbo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#70	Claude Opus 4.8 none	Anthropic	7.7	7.3	$1.166	2/3	2.74s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $1.166 Muda wa majibu (wastani) 2.74s
#117	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.044 Muda wa majibu (wastani) 2.74s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	7.7	6.4	$0.073	2/3	2.71s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.073 Muda wa majibu (wastani) 2.71s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	3/3	2.65s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.231 Muda wa majibu (wastani) 2.65s
#176	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.047 Muda wa majibu (wastani) 2.65s
#67	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	2.53s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.661 Muda wa majibu (wastani) 2.53s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	3/3	2.53s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.831 Muda wa majibu (wastani) 2.53s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.077 Muda wa majibu (wastani) 2.47s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	3/3	2.46s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.505 Muda wa majibu (wastani) 2.46s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	3/3	2.43s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $1.477 Muda wa majibu (wastani) 2.43s
#151	GLM 5V Turbo none	Z.ai	5.3	5.6	$0.052	1/3	2.40s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.052 Muda wa majibu (wastani) 2.40s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.642 Muda wa majibu (wastani) 2.38s
#140	Mimo V2 Omni medium	Xiaomi	5.9	5.9	$0.683	1/3	2.38s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.683 Muda wa majibu (wastani) 2.38s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.008 Muda wa majibu (wastani) 2.36s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	3/3	2.35s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.433 Muda wa majibu (wastani) 2.35s

←

1 9 10 11 15

→

Orodha ya Utatuzi wa mafumbo

Chuja miundo

Modeli bora kwa Alama ya Utatuzi wa mafumbo

Alama ya Utatuzi wa mafumbo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)