AI BENCHY तुलना

तुलना किए गए मॉडल

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-05-26

मेट्रिक	Grok 4.20 Beta Grok 4.20 Beta medium रिलीज़: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium रिलीज़: 2025-11-19	Hunter Alpha Hunter Alpha medium रिलीज़: 2026-03-11

मेट्रिक	Grok 4.20 Beta Grok 4.20 Beta medium रिलीज़: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium रिलीज़: 2025-11-19	Hunter Alpha Hunter Alpha medium रिलीज़: 2026-03-11
स्कोर	8.5	6.5	6.7
रैंक	#14	#88	#76
विश्वसनीयता	लागू नहीं	10.0	लागू नहीं
संगति	9.5	7.3	7.4
सही परीक्षण
प्रति प्रयास पास दर	81.5%	61.4%	64.8%
अस्थिर टेस्ट	1	6	6
कुल रन	128	133	90
प्रति परिणाम लागत	8.557	0.926	0.000
कुल लागत	$1.198	$0.084	$0.000
???? ???	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
????? ???	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
आउटपुट टोकन	4,915	3,298	6,506
रीजनिंग टोकन	177,787	139,122	24,809
प्रतिक्रिया समय (औसत)	9.75s	23.85s	10.33s
प्रतिक्रिया समय (अधिकतम)	31.36s	121.79s	30.53s
प्रतिक्रिया समय (कुल)	175.48s	286.16s	175.58s

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741
Hunter Alpha	7.3	5.8	83.3%	2		4.75s	479	1,103

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703
Hunter Alpha	3.0	10.0	0.0%	0		0ms	0	0

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272
Hunter Alpha	4.7	1.6	66.7%	1		30.53s	792	3,456

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409
Hunter Alpha	10.0	10.0	100.0%	0		23.16s	1,488	8,017

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657
Hunter Alpha	3.0	10.0	0.0%	0		10.52s	892	2,406

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456
Hunter Alpha	7.0	3.7	66.7%	1		6.44s	116	260

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.89s	703	67,771
Grok 4.1 Fast	6.5	10.0	50.0%	0		4.63s	662	21,680
Hunter Alpha	9.9	10.0	100.0%	0		4.18s	208	465

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	10.0	10.0	100.0%	0		3.52s	2,950	31,874
Grok 4.1 Fast	5.3	7.2	44.4%	1		7.40s	853	30,338
Hunter Alpha	6.1	4.7	66.7%	2		5.35s	2,223	8,198

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485
Hunter Alpha	10.0	10.0	100.0%	0		17.33s	308	904

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	आउटपुट टोकन	रीजनिंग टोकन
Grok 4.20 Beta	-	-	-	-	-	-	-	-
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381
Hunter Alpha	-	-	-	-	-	-	-	-

त्वरित तुलना

तुलना जोड़ी बदलें

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGrok Build 0.1medium DeepSeek V4 Flashhighनिःशुल्क उपलब्धvsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash LitelowvsGLM 5.1medium gpt-oss-120bmediumनिःशुल्क उपलब्धvsQwen3.5-Flashnone Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsQwen3.6 Flashmedium