Orodha ya Akili ya jumla x Hitilafu ya API

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hitilafu ya API katika Akili ya jumla, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Hy3 preview 1

Sababu za kushindwa

Hakufuata maelekezo78 Jibu lisilo sahihi59 Hitilafu ya API12 Muda umeisha4

Kategoria

Uandishi wa msimbo45 Mchanganyiko26 Mwito wa zana17 Mbinu za kupinga AI14 Uchanganuzi na uchimbaji wa data14 Maarifa ya jumla13 Akili ya jumla12 Utatuzi wa mafumbo12 Mahususi kwa domeni7 Ufuataji wa maagizo1

12/12

Nafasi	Modeli	Kampuni	Idadi ya Hitilafu ya API	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#135	Hy3 preview high	Tencent	1	3.0	$0.048	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.048 Muda wa majibu (wastani) 0ms
#153	Hy3 preview low	Tencent	1	3.0	$0.015	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 0ms
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.033 Muda wa majibu (wastani) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.009 Muda wa majibu (wastani) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.004 Muda wa majibu (wastani) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 0ms
#51	Nemotron 3 Ultra medium	NVIDIA	1	3.7	$0.774	0/1	2.52s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.774 Muda wa majibu (wastani) 2.52s
#173	DeepSeek V3.2 none	DeepSeek	1	4.7	$0.054	0/1	9.32s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.054 Muda wa majibu (wastani) 9.32s
#76	DeepSeek V3.2 medium	DeepSeek	1	3.4	$0.078	0/1	58.3s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.078 Muda wa majibu (wastani) 58.3s

Chuja miundo

Modeli bora kwa Idadi ya Hitilafu ya API

Idadi ya Hitilafu ya API dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Akili ya jumla: Hitilafu ya API

Chuja miundo

Modeli bora kwa Idadi ya Hitilafu ya API

Idadi ya Hitilafu ya API dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa