Orodha ya Mchanganyiko x Mwito wa zana si sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Mwito wa zana si sahihi katika Mchanganyiko, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Laguna M.1 1

Sababu za kushindwa

Mwito wa zana si sahihi91 Jibu lisilo sahihi68 Hakuna jibu29 Hitilafu ya API26 Muda umeisha5 Hakufuata maelekezo1 Muundo wa ziada1

Kategoria

Mchanganyiko91 Mwito wa zana9

77/77

Nafasi	Modeli	Kampuni	Idadi ya Mwito wa zana si sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.009 Muda wa majibu (wastani) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.057 Muda wa majibu (wastani) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.142 Muda wa majibu (wastani) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.349 Muda wa majibu (wastani) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.093 Muda wa majibu (wastani) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.007 Muda wa majibu (wastani) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.519 Muda wa majibu (wastani) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.008 Muda wa majibu (wastani) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.249 Muda wa majibu (wastani) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $1.055 Muda wa majibu (wastani) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.300 Muda wa majibu (wastani) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.457 Muda wa majibu (wastani) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.115 Muda wa majibu (wastani) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.117 Muda wa majibu (wastani) 18.5s

1 2 3 4 5 6

→

Chuja miundo

Modeli bora kwa Idadi ya Mwito wa zana si sahihi

Idadi ya Mwito wa zana si sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mchanganyiko: Mwito wa zana si sahihi

Chuja miundo

Modeli bora kwa Idadi ya Mwito wa zana si sahihi

Idadi ya Mwito wa zana si sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa