Orodha ya Mbinu za kupinga AI x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Mbinu za kupinga AI, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

293

Modeli iliyoathirika zaidi

Seed-2.0-Lite 4

Sababu za kushindwa

Jibu lisilo sahihi293 Hakufuata maelekezo33 Muundo wa ziada20 Hitilafu ya API14 Hakuna jibu4 Muda umeisha4

Kategoria

Mahususi kwa domeni421 Mbinu za kupinga AI293 Uandishi wa msimbo259 Utatuzi wa mafumbo204 Maarifa ya jumla172 Mchanganyiko69 Akili ya jumla62 Ufuataji wa maagizo61 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

140/140

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.544 Muda wa majibu (wastani) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.300 Muda wa majibu (wastani) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.068 Muda wa majibu (wastani) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.621 Muda wa majibu (wastani) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.021 Muda wa majibu (wastani) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.046 Muda wa majibu (wastani) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.114 Muda wa majibu (wastani) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.041 Muda wa majibu (wastani) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.025 Muda wa majibu (wastani) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.000 Muda wa majibu (wastani) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.166 Muda wa majibu (wastani) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.007 Muda wa majibu (wastani) 844ms

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mbinu za kupinga AI: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa