AI BENCHY Compare

Elephant vs xAI: Grok 4.20

Benchmark zimetengenezwa kutoka seti za majaribio za AI BENCHY tarehe: 2026-04-14

Kipimo	Elephant Elephant none Toleo: 2026-04-14	Grok 4.20 Grok 4.20 none Toleo: 2026-03-31

Kipimo	Elephant Elephant none Toleo: 2026-04-14	Grok 4.20 Grok 4.20 none Toleo: 2026-03-31
Alama	5.2	5.2
Nafasi	#81	#78
Uthabiti	9.6	9.5
Majaribio sahihi
Kiwango cha kupita kwa kila jaribio	31.5%	29.6%
Majaribio yasiyo thabiti	1	1
Jumla ya uendeshaji	54	54
Gharama kwa matokeo	0.000	1.889
Jumla ya gharama	$0.000	$0.095
Bei ya ingizo	$0.000 / 1M	$2.000 / 1M
Bei ya toleo	$0.000 / 1M	$6.000 / 1M
Tokeni za matokeo	2,573	1,967
Tokeni za hoja	0	0
Muda wa majibu (wastani)	1.23s	1.11s
Muda wa majibu (upeo)	3.81s	6.04s
Muda wa majibu (jumla)	22.16s	20.02s

Modeli bora kwa alama

Alama dhidi ya gharama ya jumla

Muda wa majibu (wastani)

Alama vs Muda wa majibu (wastani)

Jumla ya tokeni za matokeo

Alama vs Jumla ya tokeni za matokeo

Mgawanyo wa kategoria

Mbinu za kupinga AI	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	6.6	10.0	50.0%	0		963ms	610	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Uandishi wa msimbo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	6.4	3.3	66.7%	1		1.39s	375	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Mchanganyiko	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	3.0	10.0	0.0%	0		3.81s	731	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Uchanganuzi na uchimbaji wa data	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	6.5	10.0	50.0%	0		1.04s	246	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Mahususi kwa domeni	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	3.0	10.0	0.0%	0		927ms	24	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Akili ya jumla	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	4.0	10.0	0.0%	0		854ms	106	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Ufuataji wa maagizo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	9.8	10.0	100.0%	0		1.03s	81	0
Grok 4.20	4.8	10.0	0.0%	0		455ms	60	0

Utatuzi wa mafumbo	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	3.3	10.0	0.0%	0		849ms	170	0
Grok 4.20	5.3	7.4	44.4%	1		487ms	242	0

Mwito wa zana	Alama	Uthabiti	Kiwango cha kupita kwa kila jaribio	Majaribio yasiyo thabiti	Majaribio sahihi	Muda wa majibu (wastani)	Tokeni za matokeo	Tokeni za hoja
Elephant	3.0	10.0	0.0%	0		2.79s	230	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Ulinganisho wa haraka

Badilisha jozi ya ulinganisho

ElephantmediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none MiniMax M2.7mediumvsElephantnone Mistral Small 4mediumvsGrok 4.20none Mistral Small 4mediumvsElephantnone ElephantnonevsQwen3 Coder Nextmedium MiniMax M2.5mediumInapatikana burevsGrok 4.20none Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.5mediumInapatikana burevsElephantnone ElephantnonevsGLM 4.7 Flashmedium Grok 4.20nonevsGLM 4.7 Flashmedium gpt-oss-120bmediumInapatikana burevsGrok 4.20none