Orodha ya Mchanganyiko x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Mchanganyiko, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Laguna Xs.2 1

Sababu za kushindwa

Mwito wa zana si sahihi91 Jibu lisilo sahihi68 Hakuna jibu29 Hitilafu ya API26 Muda umeisha5 Hakufuata maelekezo1 Muundo wa ziada1

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

63/63

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#205	Laguna Xs.2 none	Poolside	1	1.5	$0.004	0/1	2.01s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.004 Muda wa majibu (wastani) 2.01s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.030 Muda wa majibu (wastani) 2.56s
#200	MiMo-V2-Flash none	Xiaomi	1	1.5	$0.025	0/1	2.87s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.025 Muda wa majibu (wastani) 2.87s
#203	Grok 4.1 Fast none	X AI	1	1.5	$0.008	0/1	3.33s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 3.33s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 3.70s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 3.81s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.047 Muda wa majibu (wastani) 4.89s
#141	GLM 5 none	Z.ai	1	1.5	$0.041	0/1	4.98s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 4.98s
#157	Mimo V2 Omni none	Xiaomi	1	1.5	$0.021	0/1	5.96s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.021 Muda wa majibu (wastani) 5.96s
#136	GPT-5.4 Mini none	OpenAI	1	6.5	$0.095	1/2	6.22s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.095 Muda wa majibu (wastani) 6.22s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.052 Muda wa majibu (wastani) 6.23s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.010 Muda wa majibu (wastani) 6.32s
#145	GLM 5V Turbo none	Z.ai	1	1.5	$0.052	0/1	6.51s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.052 Muda wa majibu (wastani) 6.51s
#147	Mimo V2 PRO none	Xiaomi	1	1.5	$0.045	0/1	6.58s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.045 Muda wa majibu (wastani) 6.58s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.142 Muda wa majibu (wastani) 6.68s

1 2 3 4 5

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mchanganyiko: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa