Orodha ya Uandishi wa msimbo x Jibu lisilo sahihi

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Uandishi wa msimbo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

230

Modeli iliyoathirika zaidi

Qwen3.6 Flash 3

Sababu za kushindwa

Jibu lisilo sahihi230 Hitilafu ya API43 Muda umeisha25 Hakuna jibu18 Hakufuata maelekezo16 Muundo wa ziada12

Kategoria

Mahususi kwa domeni368 Mbinu za kupinga AI270 Uandishi wa msimbo230 Utatuzi wa mafumbo173 Maarifa ya jumla150 Mchanganyiko58 Ufuataji wa maagizo56 Akili ya jumla49 Uchanganuzi na uchimbaji wa data36 Mwito wa zana3

134/134

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#121	Qwen3.5-27B none	Qwen	2	5.8	$0.015	1/3	1.80s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.015 Muda wa majibu (wastani) 1.80s
#122	GLM 5V Turbo none	Z.ai	2	5.5	$0.052	1/3	3.13s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.052 Muda wa majibu (wastani) 3.13s
#129	GPT-5.4 none	OpenAI	2	5.5	$0.122	1/3	1.62s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.122 Muda wa majibu (wastani) 1.62s
#136	Kimi K2.5 none	Moonshot AI	2	5.5	$0.027	1/3	24.6s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.027 Muda wa majibu (wastani) 24.6s
#137	MiMo-V2.5-Pro none	Xiaomi	2	4.3	$0.017	0/3	1.41s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.017 Muda wa majibu (wastani) 1.41s
#138	Qwen3.6 27B none	Qwen	2	5.5	$0.025	1/3	4.16s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.025 Muda wa majibu (wastani) 4.16s
#139	Gemma 4 26B A4B none	Google	2	3.7	$0.004	0/3	4.16s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.004 Muda wa majibu (wastani) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	2	3.9	$0.032	0/3	1.69s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.032 Muda wa majibu (wastani) 1.69s
#144	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.038 Muda wa majibu (wastani) 913ms
#146	DeepSeek V3.2 none	DeepSeek	2	3.1	$0.016	0/3	14.5s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.016 Muda wa majibu (wastani) 14.5s
#148	Qwen3.6 35B A3B none	Qwen	2	5.5	$0.031	1/3	8.77s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.031 Muda wa majibu (wastani) 8.77s
#154	MiMo-V2.5 none	Xiaomi	2	5.5	$0.006	1/3	3.24s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.006 Muda wa majibu (wastani) 3.24s
#168	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.008 Muda wa majibu (wastani) 924ms
#179	MiMo-V2-Flash none	Xiaomi	2	4.3	$0.025	0/3	2.64s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.025 Muda wa majibu (wastani) 2.64s
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.667 Muda wa majibu (wastani) 84.4s

←

1 4 5 6 9

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Uandishi wa msimbo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa