Orodha ya modeli za Utatuzi wa mafumbo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Utatuzi wa mafumbo, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Kipimo ↑.

Modeli zilizoonyeshwa

Wastani wa Alama ya Utatuzi wa mafumbo

6.7

Modeli bora

Step 3.5 Flash 0.0

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi201 Kwa sababu ya kushindwa Hakufuata maelekezo90 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muundo wa ziada8 Kwa sababu ya kushindwa Muda umeisha5 Kwa sababu ya kushindwa Hakuna jibu3

210/210

Nafasi	Modeli	Kampuni	Alama ya Utatuzi wa mafumbo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#209	Step 3.5 Flash none	Stepfun	0.0	2.3	$0.020	0/0	0ms
Jumla ya majaribio 0 Majaribio yenye makosa 0 Jumla ya gharama $0.020 Muda wa majibu (wastani) 0ms
#182	KAT-Coder-Air V2.5 none	Kwaipilot	2.9	4.8	$0.067	0/3	1.84s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.067 Muda wa majibu (wastani) 1.84s
#178	Ling-2.6-flash none	Inclusionai	2.9	4.9	$0.002	0/3	6.51s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.002 Muda wa majibu (wastani) 6.51s
#194	GLM 4.7 Flash medium	Z.ai	2.9	4.3	$0.166	0/3	12.9s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.166 Muda wa majibu (wastani) 12.9s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	3.0	5.7	$0.050	0/3	3.15s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.050 Muda wa majibu (wastani) 3.15s
#155	Kimi K2.5 none	Moonshot AI	3.0	5.5	$0.127	0/3	4.04s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.127 Muda wa majibu (wastani) 4.04s
#160	Laguna XS 2.1 none	Poolside	3.0	5.3	$0.008	0/3	1.01s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 1.01s
#166	Qwen3 Coder Next none	Qwen	3.0	5.1	$0.025	0/3	24.3s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.025 Muda wa majibu (wastani) 24.3s
#187	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/3	1.25s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.032 Muda wa majibu (wastani) 1.25s
#192	Laguna M.1 none	Poolside	3.0	4.4	$0.009	0/3	891ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.009 Muda wa majibu (wastani) 891ms
#203	Grok 4.1 Fast none	X AI	3.0	3.8	$0.008	0/3	1.10s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 1.10s
#204	Qwen3.5-9B medium	Qwen	3.0	3.8	$0.036	0/3	32.3s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.036 Muda wa majibu (wastani) 32.3s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/3	532ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 532ms
#150	DeepSeek V4 Flash none	DeepSeek	3.1	5.6	$0.044	0/3	23.7s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.044 Muda wa majibu (wastani) 23.7s

Orodha ya Utatuzi wa mafumbo

Chuja miundo

Modeli bora kwa Alama ya Utatuzi wa mafumbo

Alama ya Utatuzi wa mafumbo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)