Orodha ya Mahususi kwa domeni x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Mahususi kwa domeni, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

412

Modeli iliyoathirika zaidi

Muse Spark 1.1 3

Sababu za kushindwa

Jibu lisilo sahihi412 Muda umeisha43 Muundo wa ziada17 Hakuna jibu8 Hitilafu ya API7 Hakufuata maelekezo1

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

198/198

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.317 Muda wa majibu (wastani) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.106 Muda wa majibu (wastani) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $1.046 Muda wa majibu (wastani) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.093 Muda wa majibu (wastani) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.467 Muda wa majibu (wastani) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.524 Muda wa majibu (wastani) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.738 Muda wa majibu (wastani) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.544 Muda wa majibu (wastani) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.476 Muda wa majibu (wastani) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.779 Muda wa majibu (wastani) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.068 Muda wa majibu (wastani) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.090 Muda wa majibu (wastani) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.103 Muda wa majibu (wastani) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.044 Muda wa majibu (wastani) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.066 Muda wa majibu (wastani) 1.33s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mahususi kwa domeni: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa