Orodha ya modeli za Utatuzi wa mafumbo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Utatuzi wa mafumbo, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Wastani wa Alama ya Utatuzi wa mafumbo

6.7

Modeli bora

Step 3.5 Flash 0.0

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi204 Kwa sababu ya kushindwa Hakufuata maelekezo90 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muundo wa ziada8 Kwa sababu ya kushindwa Muda umeisha5 Kwa sababu ya kushindwa Hakuna jibu3

216/216

Nafasi	Modeli	Kampuni	Alama ya Utatuzi wa mafumbo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#130	Qwen3.6 Flash none	Qwen	3.5	6.1	$0.062	0/3	1.21s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.062 Muda wa majibu (wastani) 1.21s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.145 Muda wa majibu (wastani) 1.22s
#138	GPT-5.6 Terra none	OpenAI	5.3	6.0	$0.349	1/3	1.23s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.349 Muda wa majibu (wastani) 1.23s
#193	Qwen3 Coder Next medium	Qwen	3.0	4.7	$0.032	0/3	1.25s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.032 Muda wa majibu (wastani) 1.25s
#186	GPT-5.4 Nano none	OpenAI	5.4	4.8	$0.041	1/3	1.25s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.041 Muda wa majibu (wastani) 1.25s
#91	GPT-5.5 none	OpenAI	7.7	6.9	$0.544	2/3	1.29s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.544 Muda wa majibu (wastani) 1.29s
#160	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	$0.068	1/3	1.30s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.068 Muda wa majibu (wastani) 1.30s
#133	Qwen3.5-35B-A3B none	Qwen	3.7	6.1	$0.106	0/3	1.35s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.106 Muda wa majibu (wastani) 1.35s
#109	Qwen3.5-27B none	Qwen	6.7	6.5	$0.090	1/3	1.38s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.090 Muda wa majibu (wastani) 1.38s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	3.4	$0.000	0/3	1.40s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.40s
#144	Kimi K2.6 none	Moonshot AI	3.1	5.8	$0.184	0/3	1.40s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.184 Muda wa majibu (wastani) 1.40s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	3/3	1.40s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.621 Muda wa majibu (wastani) 1.40s
#145	GPT-5.4 none	OpenAI	5.6	5.8	$0.397	1/3	1.44s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.397 Muda wa majibu (wastani) 1.44s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	1.45s
Jumla ya majaribio 3 Majaribio yenye makosa 0 Jumla ya gharama $0.300 Muda wa majibu (wastani) 1.45s
#157	GLM 5.1 none	Z.ai	7.7	5.5	$0.164	2/3	1.45s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.164 Muda wa majibu (wastani) 1.45s

Orodha ya Utatuzi wa mafumbo

Chuja miundo

Modeli bora kwa Alama ya Utatuzi wa mafumbo

Alama ya Utatuzi wa mafumbo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)