Compare Charts

Language:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.4

Compare:

Last updated at: 2026-03-05

Metric	Google: Gemini 3.1 Flash Lite Preview high Release: 2026-03-03	OpenAI: GPT-5.4 medium Release: 2026-03-05
Rank	#10	#7
Avg Score	81	82
Consistency	96	89
Cost per result	20.937	6.533
Total Cost	$2.303	$0.784
Tests Correct
Attempt pass rate	75.6%	86.7%
Flaky tests	1	2
Output Tokens	1,166	1,611
Reasoning Tokens	1,529,395	46,321

Top Models by Score

Score vs Total Cost

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	100	100	100.0%	0		144	193,077
OpenAI: GPT-5.4	100	100	100.0%	0		216	1,466

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	100	100	100.0%	0		335	380,440
OpenAI: GPT-5.4	100	100	100.0%	0		301	3,543

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	99	100	100.0%	0		279	6,186
OpenAI: GPT-5.4	99	100	100.0%	0		234	804

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	40	100	33.3%	0		18	566,202
OpenAI: GPT-5.4	40	72	44.4%	1		61	34,748

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	90	69	66.7%	1		69	190,053
OpenAI: GPT-5.4	100	100	100.0%	0		93	897

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	70	100	66.7%	0		87	190,953
OpenAI: GPT-5.4	70	72	88.9%	1		442	3,832

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	100	100	100.0%	0		234	2,484
OpenAI: GPT-5.4	100	100	100.0%	0		264	1,031

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-27Bmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewhigh Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewhighvsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewhighvsGLM 5medium Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3 Chatnone