Orodha ya kushindwa kwa Mwito wa zana si sahihi

Ona ni modeli gani za AI hukutana na Mwito wa zana si sahihi mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

100

Modeli iliyoathirika zaidi

Laguna Xs.2 1

Kategoria

Katika kategoria Mchanganyiko91 Katika kategoria Mwito wa zana9

83/83

Nafasi	Modeli	Kampuni	Idadi ya Mwito wa zana si sahihi	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Jumla ya majaribio 19 Majaribio yenye makosa 14 Jumla ya gharama $0.004 Muda wa majibu (wastani) 806ms
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Jumla ya majaribio 18 Majaribio yenye makosa 12 Jumla ya gharama $0.057 Muda wa majibu (wastani) 1.11s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Jumla ya majaribio 18 Majaribio yenye makosa 12 Jumla ya gharama $0.087 Muda wa majibu (wastani) 1.19s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
Jumla ya majaribio 21 Majaribio yenye makosa 16 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.22s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
Jumla ya majaribio 21 Majaribio yenye makosa 15 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.27s
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
Jumla ya majaribio 22 Majaribio yenye makosa 20 Jumla ya gharama $0.007 Muda wa majibu (wastani) 1.45s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Jumla ya majaribio 22 Majaribio yenye makosa 16 Jumla ya gharama $0.142 Muda wa majibu (wastani) 1.50s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Jumla ya majaribio 22 Majaribio yenye makosa 17 Jumla ya gharama $0.008 Muda wa majibu (wastani) 1.55s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Jumla ya majaribio 22 Majaribio yenye makosa 14 Jumla ya gharama $0.349 Muda wa majibu (wastani) 1.65s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
Jumla ya majaribio 22 Majaribio yenye makosa 8 Jumla ya gharama $0.300 Muda wa majibu (wastani) 2.65s
#78	Mercury 2 medium	Inception	1	7.0	$0.093	10/22	2.72s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.093 Muda wa majibu (wastani) 2.72s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
Jumla ya majaribio 19 Majaribio yenye makosa 15 Jumla ya gharama $0.009 Muda wa majibu (wastani) 2.89s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Jumla ya majaribio 22 Majaribio yenye makosa 16 Jumla ya gharama $0.147 Muda wa majibu (wastani) 3.50s
#124	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.062 Muda wa majibu (wastani) 3.74s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Jumla ya majaribio 22 Majaribio yenye makosa 9 Jumla ya gharama $0.117 Muda wa majibu (wastani) 4.27s

1 2 3 4 5 6

→

Kushindwa kwa Mwito wa zana si sahihi

Chuja miundo

Modeli bora kwa Idadi ya Mwito wa zana si sahihi

Idadi ya Mwito wa zana si sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)