AI BENCHY Compare

OpenAI: GPT-5.4 vs Elephant Alpha

Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-05-29

Kipimo	GPT-5.4 GPT-5.4 none Toleo: 2026-03-05	Elephant Alpha Elephant Alpha medium Toleo: 2026-04-14

Kipimo	GPT-5.4 GPT-5.4 none Toleo: 2026-03-05	Elephant Alpha Elephant Alpha medium Toleo: 2026-04-14
Alama	5.6	5.4
Nafasi	#120	#127
Uaminifu	10.0	Haipo
Uthabiti	9.1	9.6
Majaribio sahihi
Kiwango cha kupita kwa kila jaribio	38.3%	33.3%
Majaribio yasiyo thabiti	2	1
Jumla ya uendeshaji	60	60
Gharama kwa matokeo	1.644	0.000
Jumla ya gharama	$0.116	$0.000
Bei ya ingizo	$2.500 / 1M	$0.000 / 1M
Bei ya toleo	$15.000 / 1M	$0.000 / 1M
Tokeni za matokeo	2,402	2,596
Tokeni za hoja	0	0
Muda wa majibu (wastani)	1.45s	1.27s
Muda wa majibu (upeo)	2.95s	3.70s
Muda wa majibu (jumla)	29.00s	22.82s

Modeli bora kwa alama

Alama dhidi ya gharama ya jumla

Muda wa majibu (wastani)

Alama vs Muda wa majibu (wastani)

Jumla ya tokeni za matokeo

Alama vs Jumla ya tokeni za matokeo

Mgawanyo wa kategoria

Mbinu za kupinga AI	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	3.2	8.0	8.3%	1		1.21s	406	0
Elephant Alpha	6.6	10.0	50.0%	0		1.19s	815	0

Uandishi wa msimbo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	6.8	10.0	50.0%	0		1.99s	501	0
Elephant Alpha	4.0	6.7	16.7%	1		1.30s	365	0

Mchanganyiko	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	3.0	10.0	0.0%	0		2.89s	291	0
Elephant Alpha	3.0	10.0	0.0%	0		3.70s	562	0

Uchanganuzi na uchimbaji wa data	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	10.0	10.0	100.0%	0		1.04s	222	0
Elephant Alpha	6.5	10.0	50.0%	0		979ms	246	0

Mahususi kwa domeni	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	5.3	7.2	44.4%	1		1.07s	50	0
Elephant Alpha	3.0	10.0	0.0%	0		925ms	24	0

Akili ya jumla	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	4.4	9.9	0.0%	0		1.78s	184	0
Elephant Alpha	4.3	10.0	0.0%	0		920ms	105	0

Ufuataji wa maagizo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	6.5	10.0	50.0%	0		1.07s	81	0
Elephant Alpha	9.8	10.0	100.0%	0		987ms	82	0

Utatuzi wa mafumbo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	5.6	9.8	33.3%	0		1.44s	381	0
Elephant Alpha	5.3	10.0	33.3%	0		868ms	166	0

Mwito wa zana	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Elephant Alpha	3.0	10.0	0.0%	0		2.83s	231	0

Maarifa ya jumla	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
GPT-5.4	3.0	10.0	0.0%	0		990ms	40	0
Elephant Alpha	0.0	0.0	0.0%	0		0ms	0	0

Ulinganisho wa haraka

Badilisha jozi ya ulinganisho

Elephant AlphamediumvsQwen3.5-122B-A10Bnone Elephant AlphamediumvsGrok 4.20none gpt-oss-120bnoneInapatikana burevsElephant Alphamedium Elephant AlphamediumvsGLM 5 Turbonone Kimi K2.5nonevsElephant Alphamedium Ling-2.6-flashnonevsElephant Alphamedium MiniMax M2.5mediumInapatikana burevsGPT-5.4none Elephant AlphamediumvsQwen3.6 Flashnone CobuddymediumvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none Elephant AlphamediumvsMiMo-V2.5-Pronone MiniMax M2.7mediumvsGPT-5.4none