Orodha ya Mbinu za kupinga AI x Hakufuata maelekezo

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Mbinu za kupinga AI, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Laguna Xs.2 1

Sababu za kushindwa

Jibu lisilo sahihi250 Hakufuata maelekezo30 Muundo wa ziada18 Hitilafu ya API12 Muda umeisha4 Hakuna jibu3

Kategoria

Utatuzi wa mafumbo82 Akili ya jumla72 Mbinu za kupinga AI30 Uandishi wa msimbo16 Ufuataji wa maagizo12 Mwito wa zana6 Mahususi kwa domeni1 Mchanganyiko1

29/29

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#162	Laguna Xs.2 none	Poolside	1	3.0	$0.000	0/4	534ms
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.000 Muda wa majibu (wastani) 534ms
#163	Granite 4.1 8B none	IBM Granite	1	4.9	$0.003	1/4	844ms
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.003 Muda wa majibu (wastani) 844ms
#152	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 963ms
#84	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.018	2/4	1.04s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.018 Muda wa majibu (wastani) 1.04s
#161	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.008 Muda wa majibu (wastani) 1.07s
#44	Mercury 2 medium	Inception	1	6.9	$0.058	2/4	1.12s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.058 Muda wa majibu (wastani) 1.12s
#114	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.021 Muda wa majibu (wastani) 1.63s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.068	3/4	2.33s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.068 Muda wa majibu (wastani) 2.33s
#34	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.071	3/4	2.39s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.071 Muda wa majibu (wastani) 2.39s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.017	0/4	2.67s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.017 Muda wa majibu (wastani) 2.67s
#110	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.78s
#130	Qwen3 Coder Next none	Qwen	1	3.6	$0.009	0/4	3.31s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.009 Muda wa majibu (wastani) 3.31s
#45	GPT-5.3 Chat none	OpenAI	1	6.7	$0.433	2/4	3.86s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.433 Muda wa majibu (wastani) 3.86s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.034	0/4	4.02s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.034 Muda wa majibu (wastani) 4.02s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.548 Muda wa majibu (wastani) 7.81s

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mbinu za kupinga AI: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa