Orodha ya modeli za Utatuzi wa mafumbo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Utatuzi wa mafumbo, zipi zinabaki thabiti, na pengo kubwa liko wapi.

Modeli zilizoonyeshwa

Wastani wa Alama ya Utatuzi wa mafumbo

6.7

Modeli bora

Gemini 3.6 Flash 10.0

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi204 Kwa sababu ya kushindwa Hakufuata maelekezo90 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muundo wa ziada8 Kwa sababu ya kushindwa Muda umeisha5 Kwa sababu ya kushindwa Hakuna jibu3

216/216

Nafasi	Modeli	Kampuni	Alama ya Utatuzi wa mafumbo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.476 Muda wa majibu (wastani) 3.03s
#107	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.082 Muda wa majibu (wastani) 20.3s
#120	Qwen3.5-Flash medium	Qwen	8.2	6.2	$0.139	2/3	27.6s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.139 Muda wa majibu (wastani) 27.6s
#125	Qwen3.5-35B-A3B medium	Qwen	8.2	6.2	$0.837	2/3	33.1s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.837 Muda wa majibu (wastani) 33.1s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $1.627 Muda wa majibu (wastani) 59.6s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.746 Muda wa majibu (wastani) 5.95s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $1.357 Muda wa majibu (wastani) 42.5s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.286 Muda wa majibu (wastani) 49.9s
#30	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $1.694 Muda wa majibu (wastani) 70.0s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.352 Muda wa majibu (wastani) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.756 Muda wa majibu (wastani) 4.37s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.145 Muda wa majibu (wastani) 1.22s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.642 Muda wa majibu (wastani) 2.38s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $3.478 Muda wa majibu (wastani) 5.18s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.922 Muda wa majibu (wastani) 2.98s

Orodha ya Utatuzi wa mafumbo

Chuja miundo

Modeli bora kwa Alama ya Utatuzi wa mafumbo

Alama ya Utatuzi wa mafumbo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)