Orodha ya modeli za Akili ya jumla

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Akili ya jumla, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Kipimo ↑.

Modeli zilizoonyeshwa

Wastani wa Alama ya Akili ya jumla

6.1

Modeli bora

Qwen3.5-35B-A3B 2.8

Sababu za kushindwa

Kwa sababu ya kushindwa Hakufuata maelekezo78 Kwa sababu ya kushindwa Jibu lisilo sahihi59 Kwa sababu ya kushindwa Hitilafu ya API12 Kwa sababu ya kushindwa Muda umeisha4

210/210

Nafasi	Modeli	Kampuni	Alama ya Akili ya jumla	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#194	GLM 4.7 Flash medium	Z.ai	3.6	4.3	$0.166	0/1	18.1s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.166 Muda wa majibu (wastani) 18.1s
#51	Nemotron 3 Ultra medium	NVIDIA	3.7	7.5	$0.774	0/1	2.52s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.774 Muda wa majibu (wastani) 2.52s
#21	GPT-5.2 medium	OpenAI	3.7	8.4	$0.951	0/1	4.32s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.951 Muda wa majibu (wastani) 4.32s
#180	GPT-5.4 Nano none	OpenAI	3.8	4.8	$0.041	0/1	1.31s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 1.31s
#190	MiniMax M2.5 medium	Minimax	3.8	4.6	$0.340	0/1	6.63s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.340 Muda wa majibu (wastani) 6.63s
#171	North Mini Code none	Cohere	3.9	5.1	$0.000	0/1	34.8s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 34.8s
#172	MiniMax M2.7 medium	Minimax	3.9	5.0	$0.163	0/1	38.7s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.163 Muda wa majibu (wastani) 38.7s
#75	Grok 4.20 medium	X AI	3.9	7.1	$0.777	0/1	24.5s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.777 Muda wa majibu (wastani) 24.5s
#29	Step 3.7 Flash medium	Stepfun	4.0	8.0	$0.515	0/1	6.85s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.515 Muda wa majibu (wastani) 6.85s
#104	Gemini 3.1 Flash Lite Preview low	Google	4.0	6.5	$0.646	0/1	1.54s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.646 Muda wa majibu (wastani) 1.54s
#105	Gemini 3.1 Flash Lite low	Google	4.0	6.5	$0.621	0/1	1.37s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.621 Muda wa majibu (wastani) 1.37s
#106	Gemini 3.1 Flash Lite Preview none	Google	4.0	6.4	$0.052	0/1	741ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.052 Muda wa majibu (wastani) 741ms
#113	MiMo-V2-Flash medium	Xiaomi	4.0	6.3	$0.043	0/1	4.20s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.043 Muda wa majibu (wastani) 4.20s
#120	Gemini 3.1 Flash Lite minimal	Google	4.0	6.1	$0.047	0/1	791ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.047 Muda wa majibu (wastani) 791ms
#122	Gemini 3.1 Flash Lite none	Google	4.0	6.1	$0.046	0/1	992ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.046 Muda wa majibu (wastani) 992ms

Orodha ya Akili ya jumla

Chuja miundo

Modeli bora kwa Alama ya Akili ya jumla

Alama ya Akili ya jumla dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)