Orodha ya Mchanganyiko x Mwito wa zana si sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Mwito wa zana si sahihi katika Mchanganyiko, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Muse Spark 1.1 2

Sababu za kushindwa

Mwito wa zana si sahihi91 Jibu lisilo sahihi68 Hakuna jibu29 Hitilafu ya API26 Muda umeisha5 Hakufuata maelekezo1 Muundo wa ziada1

Kategoria

Mchanganyiko91 Mwito wa zana9

77/77

Nafasi	Modeli	Kampuni	Idadi ya Mwito wa zana si sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $1.694 Muda wa majibu (wastani) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.300 Muda wa majibu (wastani) 14.4s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.779 Muda wa majibu (wastani) 584.1s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.187 Muda wa majibu (wastani) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.062 Muda wa majibu (wastani) 26.5s
#150	DeepSeek V4 Flash none	DeepSeek	2	4.6	$0.044	0/2	179.6s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.044 Muda wa majibu (wastani) 179.6s
#152	Qwen3.6 27B none	Qwen	2	3.2	$0.087	0/2	83.1s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.087 Muda wa majibu (wastani) 83.1s
#169	Qwen3.5-9B none	Qwen	2	3.0	$0.021	0/2	194.0s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.021 Muda wa majibu (wastani) 194.0s
#171	North Mini Code none	Cohere	2	3.2	$0.000	0/2	96.2s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 96.2s
#173	DeepSeek V3.2 none	DeepSeek	2	4.8	$0.054	0/2	113.5s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.054 Muda wa majibu (wastani) 113.5s
#176	GLM 4.7 Flash none	Z.ai	2	3.0	$0.016	0/2	50.2s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.016 Muda wa majibu (wastani) 50.2s
#178	Ling-2.6-flash none	Inclusionai	2	3.0	$0.002	0/2	35.7s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.002 Muda wa majibu (wastani) 35.7s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.166 Muda wa majibu (wastani) 802.8s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.007 Muda wa majibu (wastani) 9.28s
#2	Gemini 3.5 Flash high	Google	1	8.2	$1.976	1/2	84.1s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $1.976 Muda wa majibu (wastani) 84.1s

1 2 3 4 5 6

→

Chuja miundo

Modeli bora kwa Idadi ya Mwito wa zana si sahihi

Idadi ya Mwito wa zana si sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mchanganyiko: Mwito wa zana si sahihi

Chuja miundo

Modeli bora kwa Idadi ya Mwito wa zana si sahihi

Idadi ya Mwito wa zana si sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa