Orodha ya kushindwa kwa Hakuna jibu

Ona ni modeli gani za AI hukutana na Hakuna jibu mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Kategoria

Katika kategoria Mchanganyiko29 Katika kategoria Uandishi wa msimbo18 Katika kategoria Maarifa ya jumla12 Katika kategoria Mahususi kwa domeni8 Katika kategoria Uchanganuzi na uchimbaji wa data5 Katika kategoria Mbinu za kupinga AI4 Katika kategoria Utatuzi wa mafumbo3 Katika kategoria Mwito wa zana2 Katika kategoria Ufuataji wa maagizo2

64/64

Nafasi	Modeli	Kampuni	Idadi ya Hakuna jibu	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#85	Step 3.7 Flash high	Stepfun	4	6.9	$1.207	11/22	64.7s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $1.207 Muda wa majibu (wastani) 64.7s
#96	Qwen3.6 27B medium	Qwen	3	6.5	$0.779	10/22	106.3s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.779 Muda wa majibu (wastani) 106.3s
#190	GLM 4.7 Flash medium	Z.ai	3	4.3	$0.166	4/22	142.6s
Jumla ya majaribio 22 Majaribio yenye makosa 18 Jumla ya gharama $0.166 Muda wa majibu (wastani) 142.6s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Jumla ya majaribio 22 Majaribio yenye makosa 5 Jumla ya gharama $1.707 Muda wa majibu (wastani) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Jumla ya majaribio 22 Majaribio yenye makosa 5 Jumla ya gharama $3.478 Muda wa majibu (wastani) 17.2s
#38	GLM 5.2 medium	Z.ai	2	7.8	$0.068	15/21	23.3s
Jumla ya majaribio 21 Majaribio yenye makosa 6 Jumla ya gharama $0.068 Muda wa majibu (wastani) 23.3s
#76	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.600 Muda wa majibu (wastani) 99.0s
#93	Gemma 4 26B A4B medium	Google	2	6.6	$0.082	14/22	103.8s
Jumla ya majaribio 22 Majaribio yenye makosa 8 Jumla ya gharama $0.082 Muda wa majibu (wastani) 103.8s
#108	Claude Sonnet 5 none	Anthropic	2	6.3	$0.548	8/22	6.04s
Jumla ya majaribio 22 Majaribio yenye makosa 14 Jumla ya gharama $0.548 Muda wa majibu (wastani) 6.04s
#115	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $0.837 Muda wa majibu (wastani) 112.5s
#130	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Jumla ya majaribio 21 Majaribio yenye makosa 11 Jumla ya gharama $0.683 Muda wa majibu (wastani) 41.2s
#168	MiniMax M2.7 medium	Minimax	2	5.0	$0.163	5/22	41.3s
Jumla ya majaribio 22 Majaribio yenye makosa 17 Jumla ya gharama $0.163 Muda wa majibu (wastani) 41.3s
#186	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	5/22	68.3s
Jumla ya majaribio 22 Majaribio yenye makosa 17 Jumla ya gharama $0.340 Muda wa majibu (wastani) 68.3s
#194	Laguna Xs.2 medium	Poolside	2	4.1	$0.015	6/19	6.73s
Jumla ya majaribio 19 Majaribio yenye makosa 13 Jumla ya gharama $0.015 Muda wa majibu (wastani) 6.73s
#200	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Jumla ya majaribio 22 Majaribio yenye makosa 19 Jumla ya gharama $0.036 Muda wa majibu (wastani) 82.2s

1 2 3 4 5

→

Kushindwa kwa Hakuna jibu

Chuja miundo

Modeli bora kwa Idadi ya Hakuna jibu

Idadi ya Hakuna jibu dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)