Navigare
AI BENCHY
Advertise here

AI BENCHY Compare

Google: Gemini 3.5 Flash vs StepFun: Step 3.5 Flash

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-03

Metrică Gemini 3.5 Flash Gemini 3.5 Flash minimal Lansare: 2026-05-19 Step 3.5 Flash Step 3.5 Flash medium Lansare: 2026-02-01
Scor 7.9 7.4
Rang #23 #55
Fiabilitate 10.0 10.0
Consistență 9.6 9.4
Teste corecte
Rată de trecere pe încercare 71.7% 59.7%
Teste instabile 1 1
Rulări totale 60 57
Cost per rezultat 0.734 0.133
Cost total $0.103 $0.062
Preț de intrare $1.500 / 1M $0.090 / 1M
Preț de ieșire $9.000 / 1M $0.300 / 1M
Total tokenuri de intrare 36,844 33,555
Tokenuri de ieșire 5,271 90,478
Tokenuri de raționament 0 173,544
Timp de răspuns (mediu) 1.58s 43.20s
Timp de răspuns (maxim) 5.51s 170.45s
Timp de răspuns (total) 31.55s 561.54s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 6.5 10.0 50.0% 0 892ms 492 405 0
Step 3.5 Flash 10.0 10.0 100.0% 0 40.57s 694 20,391 24,176
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 7.0 9.8 50.0% 0 3.39s 5,119 3,450 0
Step 3.5 Flash 3.5 7.8 0.0% 0 62.83s 1,335 12,098 0
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 3.0 10.0 0.0% 0 3.56s 15,780 404 0
Step 3.5 Flash 10.0 10.0 100.0% 0 29.57s 13,638 1,176 12,984
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 1.66s 7,548 279 0
Step 3.5 Flash 10.0 10.0 100.0% 0 15.01s 7,368 600 13,886
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 899ms 633 12 0
Step 3.5 Flash 5.3 7.2 44.4% 1 170.45s 673 45,350 90,436
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 922ms 486 117 0
Step 3.5 Flash 5.5 10.0 0.0% 0 22.39s 509 240 3,506
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 6.4 5.8 66.7% 1 893ms 615 76 0
Step 3.5 Flash 8.3 10.0 50.0% 0 4.78s 705 2,364 3,521
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 1.45s 558 282 0
Step 3.5 Flash 5.3 10.0 33.3% 0 7.22s 711 5,630 10,861
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 10.0 10.0 100.0% 0 2.79s 5,457 234 0
Step 3.5 Flash 10.0 10.0 100.0% 0 11.91s 7,701 275 3,802
Cultură generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Gemini 3.5 Flash 3.0 10.0 0.0% 0 1.76s 156 12 0
Step 3.5 Flash 3.0 10.0 0.0% 0 108.45s 221 2,354 10,372

Comparație rapidă

Schimbă perechea de comparație