Kushindwa kwa kategoria za AI BENCHY

Uchanganuzi na uchimbaji wa data

Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Uchanganuzi na uchimbaji wa data, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Sababu zinazohusiana za kushindwa

Jibu lisilo sahihi14 Hitilafu ya API4 Hakuna jibu2 Muundo wa ziada1

Kategoria zinazohusiana

Mahususi kwa domeni98 Utatuzi wa mafumbo55 Mbinu za kupinga AI53 Ufuataji wa maagizo26 Mchanganyiko21 Uchanganuzi na uchimbaji wa data14 Akili ya jumla6 Mwito wa zana2

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Majaribio sahihi	Muda wa majibu (wastani)
#34	GPT-5 Nano medium	OpenAI	2	10.0	0/2	21.4s
#43	MiniMax M2.5 medium	Minimax	2	10.0	0/2	7.48s
#55	LFM2-24B-A2B none	Liquid	2	10.0	0/2	714ms
#33	DeepSeek V3.2 none	DeepSeek	1	5.4	1/2	9.42s
#36	Mercury 2 medium	Inception	1	5.5	1/2	1.11s
#39	gpt-oss-120b medium	OpenAI	1	5.5	1/2	1.98s
#46	Kimi K2.5 none	Moonshot AI	1	5.4	1/2	42.1s
#48	Qwen3 Coder Next none	Qwen	1	5.4	1/2	1.32s
#49	GLM 4.7 Flash none	Z.ai	1	5.4	1/2	4.82s
#50	Qwen3 Coder Next medium	Qwen	1	5.4	1/2	81.8s
#51	Mercury 2 none	Inception	1	5.5	1/2	667ms

Modeli bora kwa Idadi ya Jibu lisilo sahihi