AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.20

Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-04-16

Kipimo	GPT-5.4 GPT-5.4 none Toleo: 2026-03-05	Grok 4.20 Grok 4.20 medium Toleo: 2026-03-31

Kipimo	GPT-5.4 GPT-5.4 none Toleo: 2026-03-05	Grok 4.20 Grok 4.20 medium Toleo: 2026-03-31
Alama	5.9	7.0
Nafasi	#65	#46
Uthabiti	9.1	7.8
Majaribio sahihi
Kiwango cha kupita kwa kila jaribio	42.6%	66.7%
Majaribio yasiyo thabiti	2	5
Jumla ya uendeshaji	54	54
Gharama kwa matokeo	1.477	8.252
Jumla ya gharama	$0.104	$0.743
Bei ya ingizo	$2.500 / 1M	$2.000 / 1M
Bei ya toleo	$15.000 / 1M	$6.000 / 1M
Tokeni za matokeo	2,317	1,744
Tokeni za hoja	0	109,882
Muda wa majibu (wastani)	1.51s	10.33s
Muda wa majibu (upeo)	2.95s	29.87s
Muda wa majibu (jumla)	27.21s	185.87s

Modeli bora kwa alama

Alama dhidi ya gharama ya jumla

Muda wa majibu (wastani)

Alama vs Muda wa majibu (wastani)

Jumla ya tokeni za matokeo

Alama vs Jumla ya tokeni za matokeo

Mgawanyo wa kategoria

Mbinu za kupinga AI	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	3.2	8.0	8.3%	1		1.21s	406	0
Grok 4.20	8.2	7.9	83.3%	1		3.36s	280	8,476

Uandishi wa msimbo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	10.0	10.0	100.0%	0		2.95s	480	0
Grok 4.20	4.3	1.1	66.7%	1		24.33s	250	12,804

Mchanganyiko	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	3.0	10.0	0.0%	0		2.89s	291	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556

Uchanganuzi na uchimbaji wa data	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	10.0	10.0	100.0%	0		1.04s	222	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333

Mahususi kwa domeni	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	5.3	7.2	44.4%	1		1.07s	50	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339

Akili ya jumla	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	4.4	9.9	0.0%	0		1.78s	184	0
Grok 4.20	5.8	2.8	66.7%	1		7.09s	47	4,252

Ufuataji wa maagizo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	6.5	10.0	50.0%	0		1.07s	81	0
Grok 4.20	7.3	5.9	83.3%	1		4.42s	40	5,474

Utatuzi wa mafumbo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	5.6	9.8	33.3%	0		1.52s	357	0
Grok 4.20	6.4	7.7	55.6%	1		3.89s	143	8,028

Mwito wa zana	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620

Ulinganisho wa haraka

Badilisha jozi ya ulinganisho

Gemma 4 31BnoneInapatikana burevsGrok 4.20medium Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium MiniMax M2.5mediumInapatikana burevsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none Grok 4.20mediumvsGLM 5none Claude Sonnet 4.6nonevsGrok 4.20medium Grok 4.20mediumvsMiMo-V2-Omninone Mercury 2mediumvsGPT-5.4none MiniMax M2.7mediumvsGPT-5.4none GPT-5.4nonevsElephantmedium GPT-5.3 ChatnonevsGrok 4.20medium Grok 4.20mediumvsGLM 5V Turbonone