Orodha ya Utatuzi wa mafumbo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Utatuzi wa mafumbo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

204

Modeli iliyoathirika zaidi

Qwen3.5-Flash 3

Sababu za kushindwa

Jibu lisilo sahihi204 Hakufuata maelekezo90 Hitilafu ya API12 Muundo wa ziada8 Muda umeisha5 Hakuna jibu3

Kategoria

Mahususi kwa domeni421 Mbinu za kupinga AI293 Uandishi wa msimbo259 Utatuzi wa mafumbo204 Maarifa ya jumla172 Mchanganyiko69 Akili ya jumla62 Ufuataji wa maagizo61 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

145/145

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#101	GLM 5.2 none	Z.ai	1	7.7	$0.128	2/3	3.31s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.128 Muda wa majibu (wastani) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	1	8.4	$0.369	2/3	1.70s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.369 Muda wa majibu (wastani) 1.70s
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.779 Muda wa majibu (wastani) 61.1s
#109	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.090 Muda wa majibu (wastani) 1.38s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.7	$0.073	2/3	2.71s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.073 Muda wa majibu (wastani) 2.71s
#114	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.103 Muda wa majibu (wastani) 20.7s
#118	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.548 Muda wa majibu (wastani) 3.22s
#119	MiMo-V2-Flash medium	Xiaomi	1	7.7	$0.043	2/3	3.87s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.043 Muda wa majibu (wastani) 3.87s
#121	Gemma 4 31B none	Google	1	6.5	$0.021	1/3	4.23s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.021 Muda wa majibu (wastani) 4.23s
#123	GPT-5.6 Luna low	OpenAI	1	7.6	$0.249	2/3	3.59s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.249 Muda wa majibu (wastani) 3.59s
#124	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.017 Muda wa majibu (wastani) 604ms
#127	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.019 Muda wa majibu (wastani) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.046 Muda wa majibu (wastani) 720ms
#129	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.187 Muda wa majibu (wastani) 2.97s
#134	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.114 Muda wa majibu (wastani) 20.6s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Utatuzi wa mafumbo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa