Orodha ya Mbinu za kupinga AI x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Mbinu za kupinga AI, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

293

Modeli iliyoathirika zaidi

Seed-2.0-Lite 4

Sababu za kushindwa

Jibu lisilo sahihi293 Hakufuata maelekezo33 Muundo wa ziada20 Hitilafu ya API14 Hakuna jibu4 Muda umeisha4

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

140/140

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.349 Muda wa majibu (wastani) 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.184 Muda wa majibu (wastani) 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.041 Muda wa majibu (wastani) 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.247 Muda wa majibu (wastani) 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.052 Muda wa majibu (wastani) 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.068 Muda wa majibu (wastani) 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.021 Muda wa majibu (wastani) 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.142 Muda wa majibu (wastani) 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.147 Muda wa majibu (wastani) 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.096 Muda wa majibu (wastani) 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.010 Muda wa majibu (wastani) 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.016 Muda wa majibu (wastani) 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 4.46s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mbinu za kupinga AI: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa