Orodha ya Utatuzi wa mafumbo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Utatuzi wa mafumbo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

204

Modeli iliyoathirika zaidi

Qwen3.5-Flash 3

Sababu za kushindwa

Jibu lisilo sahihi204 Hakufuata maelekezo90 Hitilafu ya API12 Muundo wa ziada8 Muda umeisha5 Hakuna jibu3

Kategoria

Mahususi kwa domeni421 Mbinu za kupinga AI293 Uandishi wa msimbo259 Utatuzi wa mafumbo204 Maarifa ya jumla172 Mchanganyiko69 Akili ya jumla62 Ufuataji wa maagizo61 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

145/145

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.779 Muda wa majibu (wastani) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.535 Muda wa majibu (wastani) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.777 Muda wa majibu (wastani) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.078 Muda wa majibu (wastani) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.600 Muda wa majibu (wastani) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.093 Muda wa majibu (wastani) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.101 Muda wa majibu (wastani) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.524 Muda wa majibu (wastani) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.187 Muda wa majibu (wastani) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.544 Muda wa majibu (wastani) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.085 Muda wa majibu (wastani) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.746 Muda wa majibu (wastani) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.145 Muda wa majibu (wastani) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.476 Muda wa majibu (wastani) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.457 Muda wa majibu (wastani) 10.2s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Utatuzi wa mafumbo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa