Orodha ya Utatuzi wa mafumbo x Hitilafu ya API

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hitilafu ya API katika Utatuzi wa mafumbo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Qwen3.6 Plus Preview 2

Sababu za kushindwa

Jibu lisilo sahihi201 Hakufuata maelekezo90 Hitilafu ya API12 Muundo wa ziada8 Muda umeisha5 Hakuna jibu3

Kategoria

Uandishi wa msimbo45 Mchanganyiko26 Mwito wa zana17 Mbinu za kupinga AI14 Uchanganuzi na uchimbaji wa data14 Maarifa ya jumla13 Akili ya jumla12 Utatuzi wa mafumbo12 Mahususi kwa domeni7 Ufuataji wa maagizo1

11/11

Nafasi	Modeli	Kampuni	Idadi ya Hitilafu ya API	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 7.52s
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.048 Muda wa majibu (wastani) 27.9s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.015 Muda wa majibu (wastani) 7.51s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.054 Muda wa majibu (wastani) 6.91s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.033 Muda wa majibu (wastani) 10.2s
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.009 Muda wa majibu (wastani) 891ms
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.015 Muda wa majibu (wastani) 1.93s
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.004 Muda wa majibu (wastani) 650ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.40s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 532ms
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.001 Muda wa majibu (wastani) 1.78s

Chuja miundo

Modeli bora kwa Idadi ya Hitilafu ya API

Idadi ya Hitilafu ya API dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Utatuzi wa mafumbo: Hitilafu ya API

Chuja miundo

Modeli bora kwa Idadi ya Hitilafu ya API

Idadi ya Hitilafu ya API dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa