Orodha ya Akili ya jumla x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Akili ya jumla, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Granite 4.1 8B 1

Sababu za kushindwa

Hakufuata maelekezo78 Jibu lisilo sahihi59 Hitilafu ya API12 Muda umeisha4

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

59/59

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	0/1	499ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.007 Muda wa majibu (wastani) 499ms
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 529ms
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.017 Muda wa majibu (wastani) 615ms
#197	Grok 4.20 none	X AI	1	4.8	$0.057	0/1	659ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.057 Muda wa majibu (wastani) 659ms
#165	Mistral Small 4 none	Mistral	1	4.0	$0.022	0/1	729ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.022 Muda wa majibu (wastani) 729ms
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.164 Muda wa majibu (wastani) 790ms
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.147 Muda wa majibu (wastani) 859ms
#174	GPT-4o-mini none	OpenAI	1	4.0	$0.010	0/1	909ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.010 Muda wa majibu (wastani) 909ms
#177	Nemotron 3 Super none	NVIDIA	1	4.6	$0.008	0/1	950ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 950ms
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.046 Muda wa majibu (wastani) 992ms
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.142 Muda wa majibu (wastani) 1.00s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.349 Muda wa majibu (wastani) 1.03s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.621 Muda wa majibu (wastani) 1.37s
#178	Ling-2.6-flash none	Inclusionai	1	4.0	$0.002	0/1	1.45s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.002 Muda wa majibu (wastani) 1.45s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.524 Muda wa majibu (wastani) 1.52s

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Akili ya jumla: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa