Google: Gemini 3.1 Flash Lite vs Google: Gemini 3.1 Flash Lite Preview
Rezumat
Comparație benchmark Gemini 3.1 Flash Lite vs Gemini 3.1 Flash Lite Preview: Gemini 3.1 Flash Lite Preview conduce la scorul mediu cu 7.8 vs 6.5. Gemini 3.1 Flash Lite Preview are costul de benchmark mai mic, $0.068 vs $2.044. Gemini 3.1 Flash Lite Preview este mai rapid cu 3.96s vs 61.96s, cu rate de reușită de 58.7% vs 61.9%.
Model recomandat: Gemini 3.1 Flash Lite Preview - Are cel mai bun scor aici (7.8) și costă de aproximativ 30.1x mai puțin decât Gemini 3.1 Flash Lite.
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
6.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 3Fără răspuns: 1Timp de răspuns (mediu)61.96sTimp de răspuns (maxim)149.23sTimp de răspuns (total)1115.31sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 7Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)3.96sTimp de răspuns (maxim)14.93sTimp de răspuns (total)83.06sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
58.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
61.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
4Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
54Rulări totale…
63Rulări totale…
Cost per rezultat
20.437Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
0.523Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$2.044Cost total (preț curent)…
$0.068Cost total (preț curent)…
Preț de intrare
$0.250 / 1MPreț de intrare…
$0.250 / 1MPreț de intrare…
Preț de ieșire
$1.500 / 1MPreț de ieșire…
$1.500 / 1MPreț de ieșire…
Total tokenuri de intrare
29,134Total tokenuri de intrare…
37,786Total tokenuri de intrare…
Tokenuri de ieșire
1,984Tokenuri de ieșire…
2,210Tokenuri de ieșire…
Tokenuri de raționament
1,355,583Tokenuri de raționament…
36,744Tokenuri de raționament…
Timp de răspuns (mediu)
61.96sTimp de răspuns (mediu)…
3.96sTimp de răspuns (mediu)…
Timp de răspuns (maxim)
149.23sTimp de răspuns (maxim)…
14.93sTimp de răspuns (maxim)…
Timp de răspuns (total)
1115.31sTimp de răspuns (total)…
83.06sTimp de răspuns (total)…
Prezentare generare
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#83 Gemini 3.1 Flash Lite
high
SVG invalid
Cost
$0.000
Timp
15.5s
Tokenuri
0 tok
#32 Gemini 3.1 Flash Lite Preview
medium
Cost
$0.003
Timp
5.2s
Tokenuri
1,944 tok
Scor
-
Cost
-
Timp
-
Tokenuri
-
Top modele după scor
Scor vs cost total
Timp de răspuns (mediu)
Scor vs Timp de răspuns (mediu)
Total tokenuri de ieșire
Scor vs Total tokenuri de ieșire
Defalcare pe categorii
Trucuri anti-AI
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
8.7Scor mediu pe toate testele de benchmark.…
9.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
75.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)37.16sTimp de răspuns (maxim)140.53sTimp de răspuns (total)148.65sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
75.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)2.33sTimp de răspuns (maxim)3.89sTimp de răspuns (total)9.30sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
2.33sTimp de răspuns (mediu)…
512Total tokenuri de intrare…
570Tokenuri de ieșire…
4,305Tokenuri de raționament…
Programare
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.3Scor mediu pe toate testele de benchmark.…
3.3Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)137.63sTimp de răspuns (maxim)137.63sTimp de răspuns (total)137.63sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)4.09sTimp de răspuns (maxim)4.34sTimp de răspuns (total)12.27sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.09sTimp de răspuns (mediu)…
8,126Total tokenuri de intrare…
461Tokenuri de ieșire…
8,597Tokenuri de raționament…
Combinat
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)149.23sTimp de răspuns (maxim)149.23sTimp de răspuns (total)149.23sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.93sTimp de răspuns (maxim)14.93sTimp de răspuns (total)14.93sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
14.93sTimp de răspuns (mediu)…
13,403Total tokenuri de intrare…
327Tokenuri de ieșire…
7,347Tokenuri de raționament…
Parsare și extragere de date
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.49sTimp de răspuns (maxim)4.96sTimp de răspuns (total)8.98sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.29sTimp de răspuns (maxim)2.31sTimp de răspuns (total)4.59sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
2.29sTimp de răspuns (mediu)…
7,362Total tokenuri de intrare…
279Tokenuri de ieșire…
2,952Tokenuri de raționament…
Specific domeniului
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.6Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
22.2%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)139.90sTimp de răspuns (maxim)141.40sTimp de răspuns (total)419.69sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)4.21sTimp de răspuns (maxim)5.86sTimp de răspuns (total)12.62sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.21sTimp de răspuns (mediu)…
639Total tokenuri de intrare…
18Tokenuri de ieșire…
5,325Tokenuri de raționament…
Inteligență generală
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.0Scor mediu pe toate testele de benchmark.…
2.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)45.69sTimp de răspuns (maxim)45.69sTimp de răspuns (total)45.69sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.16sTimp de răspuns (maxim)3.16sTimp de răspuns (total)3.16sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.16sTimp de răspuns (mediu)…
488Total tokenuri de intrare…
96Tokenuri de ieșire…
1,488Tokenuri de raționament…
Respectarea instrucțiunilor
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
7.3Scor mediu pe toate testele de benchmark.…
5.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
83.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)23.26sTimp de răspuns (maxim)43.87sTimp de răspuns (total)46.51sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)1.91sTimp de răspuns (maxim)1.93sTimp de răspuns (total)3.82sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
1.91sTimp de răspuns (mediu)…
621Total tokenuri de intrare…
72Tokenuri de ieșire…
2,121Tokenuri de raționament…
Rezolvare de puzzle-uri
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.7Scor mediu pe toate testele de benchmark.…
6.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 2Timp de răspuns (mediu)50.83sTimp de răspuns (maxim)144.85sTimp de răspuns (total)152.49sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)5.30sTimp de răspuns (maxim)9.55sTimp de răspuns (total)15.89sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.30sTimp de răspuns (mediu)…
566Total tokenuri de intrare…
141Tokenuri de ieșire…
1,896Tokenuri de raționament…
Apelare instrumente
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.44sTimp de răspuns (maxim)6.44sTimp de răspuns (total)6.44sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)3.80sTimp de răspuns (maxim)3.80sTimp de răspuns (total)3.80sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.80sTimp de răspuns (mediu)…
5,909Total tokenuri de intrare…
234Tokenuri de ieșire…
912Tokenuri de raționament…
Cultură generală
Scor
Consistență
Rată de trecere pe încercare
Teste instabile
Teste corecte
Timp de răspuns (mediu)
Tokenuri de intrare
Tokenuri de ieșire
Tokenuri de raționament
Gemini 3.1 Flash LiteModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
0.0Scor mediu pe toate testele de benchmark.…
0.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)2.68sTimp de răspuns (maxim)2.68sTimp de răspuns (total)2.68sUn test este considerat trecut complet doar dacă toate rulările lui trec.…