Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs StepFun: Step 3.5 Flash

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	Google: Gemini 3.1 Flash Lite Preview none Lansare: 2026-03-03	StepFun: Step 3.5 Flash medium Lansare: 2026-02-01 Disponibil gratuit
Rang	#22	#13
Scor mediu	7.1	7.4
Consistență	9.6	9.1
Cost per rezultat	0.144	0.000
Cost total	$0.015	$0.000
Teste corecte
Rată de trecere pe încercare	66.7%	68.8%
Teste instabile	1	2
Rulări totale	48 (16 x 3)	48 (16 x 3)
Tokenuri de ieșire	4,715	71,452
Tokenuri de raționament	0	155,147
Timp de răspuns (mediu)	1.33s	29.10s
Timp de răspuns (maxim)	3.39s	170.45s
Timp de răspuns (total)	21.27s	290.96s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	6.0	7.8	55.6%	1		1.16s	1,086	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		3.20s	339	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		1.22s	399	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		942ms	568	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		741ms	69	0
StepFun: Step 3.5 Flash	6.0	10.0	0.0%	0		6.54s	2,214	2,584

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparație rapidă

Schimbă perechea de comparație

GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponibil gratuit Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponibil gratuit GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponibil gratuit Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponibil gratuit Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone