Orodha ya modeli za Utatuzi wa mafumbo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Utatuzi wa mafumbo, zipi zinabaki thabiti, na pengo kubwa liko wapi.

Modeli zilizoonyeshwa

Wastani wa Alama ya Utatuzi wa mafumbo

6.7

Modeli bora

Gemini 3 Flash Preview 10.0

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi201 Kwa sababu ya kushindwa Hakufuata maelekezo90 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muundo wa ziada8 Kwa sababu ya kushindwa Muda umeisha5 Kwa sababu ya kushindwa Hakuna jibu3

210/210

Nafasi	Modeli	Kampuni	Alama ya Utatuzi wa mafumbo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $3.112 Muda wa majibu (wastani) 7.36s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	3/3	16.4s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.267 Muda wa majibu (wastani) 16.4s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.405 Muda wa majibu (wastani) 6.34s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	3/3	5.31s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $2.057 Muda wa majibu (wastani) 5.31s
#41	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	3/3	3.01s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $2.077 Muda wa majibu (wastani) 3.01s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	3/3	11.3s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.307 Muda wa majibu (wastani) 11.3s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	3/3	2.99s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.571 Muda wa majibu (wastani) 2.99s
#55	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	3/3	4.46s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.519 Muda wa majibu (wastani) 4.46s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	3/3	32.5s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.437 Muda wa majibu (wastani) 32.5s
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	3/3	1.13s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.197 Muda wa majibu (wastani) 1.13s
#61	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	3/3	5.77s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.177 Muda wa majibu (wastani) 5.77s
#72	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	3/3	17.9s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $1.046 Muda wa majibu (wastani) 17.9s
#79	Gemini 3.5 Flash none	Google	10.0	7.0	$1.079	3/3	3.13s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $1.079 Muda wa majibu (wastani) 3.13s
#82	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	3/3	3.61s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.096 Muda wa majibu (wastani) 3.61s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	1.45s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.300 Muda wa majibu (wastani) 1.45s

Orodha ya Utatuzi wa mafumbo

Chuja miundo

Modeli bora kwa Alama ya Utatuzi wa mafumbo

Alama ya Utatuzi wa mafumbo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)