Orodha ya Utatuzi wa mafumbo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Utatuzi wa mafumbo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

201

Modeli iliyoathirika zaidi

Qwen3.5-Flash 3

Sababu za kushindwa

Jibu lisilo sahihi201 Hakufuata maelekezo90 Hitilafu ya API12 Muundo wa ziada8 Muda umeisha5 Hakuna jibu3

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

142/142

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	3.1	$0.041	0/3	1.57s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.041 Muda wa majibu (wastani) 1.57s
#162	Ling-2.6-1T none	Inclusionai	2	3.1	$0.016	0/3	5.36s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.016 Muda wa majibu (wastani) 5.36s
#165	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.022 Muda wa majibu (wastani) 399ms
#167	Mistral Small 4 medium	Mistral	2	3.4	$0.096	0/3	2.17s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.096 Muda wa majibu (wastani) 2.17s
#169	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.021 Muda wa majibu (wastani) 621ms
#174	GPT-4o-mini none	OpenAI	2	3.5	$0.010	0/3	1.21s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.010 Muda wa majibu (wastani) 1.21s
#178	Ling-2.6-flash none	Inclusionai	2	2.9	$0.002	0/3	6.51s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.002 Muda wa majibu (wastani) 6.51s
#183	Trinity Large Preview none	Arcee AI	2	3.6	$0.008	0/3	1.97s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 1.97s
#187	Qwen3 Coder Next medium	Qwen	2	3.0	$0.032	0/3	1.25s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.032 Muda wa majibu (wastani) 1.25s
#188	Cobuddy medium	Baidu	2	3.6	$0.000	0/3	12.8s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 12.8s
#192	Laguna M.1 none	Poolside	2	3.0	$0.009	0/3	891ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.009 Muda wa majibu (wastani) 891ms
#193	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 807ms
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/3	12.9s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.166 Muda wa majibu (wastani) 12.9s
#197	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.057 Muda wa majibu (wastani) 473ms
#199	Hy3 preview none	Tencent	2	3.1	$0.003	0/3	4.56s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.003 Muda wa majibu (wastani) 4.56s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Utatuzi wa mafumbo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa