Orodha ya Mbinu za kupinga AI x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Mbinu za kupinga AI, ili uone udhaifu haraka. Panga kwa: Majaribio sahihi ↓.

Modeli zilizoonyeshwa

Jumla ya kushindwa

293

Modeli iliyoathirika zaidi

GPT-5.6 Sol 1

Sababu za kushindwa

Jibu lisilo sahihi293 Hakufuata maelekezo33 Muundo wa ziada20 Hitilafu ya API14 Hakuna jibu4 Muda umeisha4

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

140/140

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#3	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.971 Muda wa majibu (wastani) 2.60s
#5	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $1.234 Muda wa majibu (wastani) 3.39s
#13	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.920 Muda wa majibu (wastani) 4.16s
#15	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $1.477 Muda wa majibu (wastani) 1.85s
#18	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $1.533 Muda wa majibu (wastani) 4.11s
#25	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.643 Muda wa majibu (wastani) 6.30s
#30	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.604 Muda wa majibu (wastani) 3.40s
#34	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $1.055 Muda wa majibu (wastani) 2.54s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.234 Muda wa majibu (wastani) 18.0s
#39	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.676 Muda wa majibu (wastani) 2.22s
#44	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $1.017 Muda wa majibu (wastani) 2.99s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.042 Muda wa majibu (wastani) 28.5s
#50	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.352 Muda wa majibu (wastani) 2.52s
#53	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.138 Muda wa majibu (wastani) 4.52s
#55	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.519 Muda wa majibu (wastani) 2.36s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mbinu za kupinga AI: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa