Orodha ya modeli za Utatuzi wa mafumbo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Utatuzi wa mafumbo, zipi zinabaki thabiti, na pengo kubwa liko wapi.

Modeli zilizoonyeshwa

Wastani wa Alama ya Utatuzi wa mafumbo

6.7

Modeli bora

Gemini 3.6 Flash 10.0

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi204 Kwa sababu ya kushindwa Hakufuata maelekezo90 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muundo wa ziada8 Kwa sababu ya kushindwa Muda umeisha5 Kwa sababu ya kushindwa Hakuna jibu3

216/216

Nafasi	Modeli	Kampuni	Alama ya Utatuzi wa mafumbo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#105	Qwen3.6 27B medium	Qwen	7.7	6.5	$0.779	2/3	61.1s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.779 Muda wa majibu (wastani) 61.1s
#106	Hy3 preview medium	Tencent	7.7	6.5	$0.018	2/3	11.1s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.018 Muda wa majibu (wastani) 11.1s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	7.7	6.4	$0.073	2/3	2.71s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.073 Muda wa majibu (wastani) 2.71s
#119	MiMo-V2-Flash medium	Xiaomi	7.7	6.3	$0.043	2/3	3.87s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.043 Muda wa majibu (wastani) 3.87s
#124	Gemini 2.5 Flash none	Google	7.7	6.2	$0.017	2/3	604ms
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.017 Muda wa majibu (wastani) 604ms
#141	Hy3 preview high	Tencent	7.7	5.9	$0.048	2/3	27.9s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.048 Muda wa majibu (wastani) 27.9s
#147	GLM 5 none	Z.ai	7.7	5.7	$0.041	2/3	1.91s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 1.91s
#157	GLM 5.1 none	Z.ai	7.7	5.5	$0.164	2/3	1.45s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.164 Muda wa majibu (wastani) 1.45s
#169	Gemini 3.1 Flash Lite Preview high	Google	7.7	5.3	$2.310	2/3	46.7s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $2.310 Muda wa majibu (wastani) 46.7s
#185	Ring-2.6-1T none	Inclusionai	7.7	4.8	$0.026	2/3	31.5s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.026 Muda wa majibu (wastani) 31.5s
#197	Grok 4.20 Beta none	X AI	7.7	4.4	$0.087	2/3	586ms
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 586ms
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $1.017 Muda wa majibu (wastani) 14.6s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.117 Muda wa majibu (wastani) 1.95s
#123	GPT-5.6 Luna low	OpenAI	7.6	6.2	$0.249	2/3	3.59s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.249 Muda wa majibu (wastani) 3.59s
#179	DeepSeek V3.2 none	DeepSeek	7.6	5.0	$0.054	2/3	6.91s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.054 Muda wa majibu (wastani) 6.91s

Orodha ya Utatuzi wa mafumbo

Chuja miundo

Modeli bora kwa Alama ya Utatuzi wa mafumbo

Alama ya Utatuzi wa mafumbo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)