Gemini 3.5 Flash vs Grok 4.3 (medium)

Recommended model Gemini 3.5 Flash

Its score stays close to the best score here (7.0 vs 7.1), while responding about 4.8x faster than Grok 4.3 (medium).

Detailed comparison

Metric	Gemini 3.5 Flash Gemini 3.5 Flash none Release: 2026-05-19	Grok 4.3 Grok 4.3 medium Release: 2026-05-01

Metric	Gemini 3.5 Flash Gemini 3.5 Flash none Release: 2026-05-19	Grok 4.3 Grok 4.3 medium Release: 2026-05-01
Score	7.0	7.1
Rank	#89	#83
Reliability	10.0	10.0
Consistency	8.9	8.6
Tests Correct
Attempt pass rate	74.2%	68.2%
Flaky tests	3	4
Total Runs	66	66
Cost per result	7.190	5.990
Total Cost	$1.079	$0.779
Input Price	$1.500 / 1M	$1.250 / 1M
Output Price	$9.000 / 1M	$2.500 / 1M
Total Input Tokens	13,843	140,031
Output Tokens	117,518	13,739
Reasoning Tokens	0	227,682
Response Time (avg)	9.93s	47.45s
Response Time (max)	64.36s	216.69s
Response Time (total)	178.68s	1043.83s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

none

medium

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.53s	492	5,101	0
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	8.8	7.8	88.9%	1		34.69s	8,122	75,927	0
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
Grok 4.3	6.5	10.0	50.0%	0		55.07s	108,468	11,992	21,601

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	6.5	10.0	50.0%	0		8.10s	2,781	5,895	0
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	7.6	7.2	77.8%	1		10.64s	633	17,910	0
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.46s	486	1,620	0
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	9.8	10.0	100.0%	0		3.38s	615	3,928	0
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.13s	558	4,640	0
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	3.0	10.0	0.0%	0		0ms	0	0	0
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	2.8	1.6	33.3%	1		4.87s	156	2,497	0
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

Switch Comparison Pair