Comparaison benchmark Gemini 3 Flash Preview vs Laguna Xs.2 : Gemini 3 Flash Preview mène au score moyen avec 9.6 vs 5.5. Laguna Xs.2 a le coût de benchmark le plus bas avec $0.000 vs $0.667. Laguna Xs.2 est plus rapide avec 6.73s vs 18.64s, avec des taux de réussite de 98.4% vs 50.9%.
Modèle recommandé: Gemini 3 Flash Preview - Il obtient le meilleur score de cette comparaison (9.6) et le meilleur équilibre global entre coût et temps de réponse sur les 2 modèles.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-12
Laguna Xs.2Laguna Xs.2mediumModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-04-28Disponible gratuitement
Score
9.6Score moyen sur l’ensemble des tests de benchmark.…
5.5Score moyen sur l’ensemble des tests de benchmark.…
Rang
#2
#123
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
7.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)18.64sTemps de réponse (max)117.26sTemps de réponse (total)391.35sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 6Erreur API: 4Aucune réponse: 2Appel d'outil invalide: 1Temps de réponse (moy.)6.73sTemps de réponse (max)29.11sTemps de réponse (total)100.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
98.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
50.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
6Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
57Exécutions totales…
Coût par résultat
3.335Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.667Coût total (prix actuel)…
$0.000Coût total (prix actuel)…
Prix d'entrée
$0.500 / 1MPrix d'entrée…
$0.000 / 1MPrix d'entrée…
Prix de sortie
$3.000 / 1MPrix de sortie…
$0.000 / 1MPrix de sortie…
Total des jetons d'entrée
37,017Total des jetons d'entrée…
39,481Total des jetons d'entrée…
Jetons de sortie
2,006Jetons de sortie…
54,218Jetons de sortie…
Jetons de raisonnement
214,153Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
18.64sTemps de réponse (moy.)…
6.73sTemps de réponse (moy.)…
Temps de réponse (max)
117.26sTemps de réponse (max)…
29.11sTemps de réponse (max)…
Temps de réponse (total)
391.35sTemps de réponse (total)…
100.98sTemps de réponse (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#2 Gemini 3 Flash Preview
medium
Cost
$0.010
Time
17.9s
Tokens
3,236 tok
#123 Laguna Xs.2
medium
No showcase result has been generated for this model yet.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.88sTemps de réponse (max)5.73sTemps de réponse (total)15.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.88sTemps de réponse (moy.)…
494Total des jetons d'entrée…
330Jetons de sortie…
3,216Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.9Score moyen sur l’ensemble des tests de benchmark.…
7.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)2.68sTemps de réponse (max)3.09sTemps de réponse (total)8.04sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8.6Score moyen sur l’ensemble des tests de benchmark.…
7.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
88.9%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)84.40sTemps de réponse (max)117.26sTemps de réponse (total)253.21sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
84.40sTemps de réponse (moy.)…
8,122Total des jetons d'entrée…
462Jetons de sortie…
161,084Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.3Score moyen sur l’ensemble des tests de benchmark.…
3.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)14.36sTemps de réponse (max)14.36sTemps de réponse (total)14.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)22.42sTemps de réponse (max)22.42sTemps de réponse (total)22.42sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
22.42sTemps de réponse (moy.)…
12,873Total des jetons d'entrée…
351Jetons de sortie…
10,485Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)15.92sTemps de réponse (max)15.92sTemps de réponse (total)15.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.43sTemps de réponse (max)6.18sTemps de réponse (total)10.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.43sTemps de réponse (moy.)…
7,548Total des jetons d'entrée…
279Jetons de sortie…
4,893Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.1Score moyen sur l’ensemble des tests de benchmark.…
5.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)9.34sTemps de réponse (max)16.71sTemps de réponse (total)18.68sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.27sTemps de réponse (max)34.09sTemps de réponse (total)45.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
15.27sTemps de réponse (moy.)…
633Total des jetons d'entrée…
12Jetons de sortie…
21,684Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
4.1Score moyen sur l’ensemble des tests de benchmark.…
4.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Aucune réponse: 1Temps de réponse (moy.)11.12sTemps de réponse (max)29.11sTemps de réponse (total)33.35sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.19sTemps de réponse (max)5.19sTemps de réponse (total)5.19sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.19sTemps de réponse (moy.)…
486Total des jetons d'entrée…
72Jetons de sortie…
1,905Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.04sTemps de réponse (max)4.70sTemps de réponse (total)8.08sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.04sTemps de réponse (moy.)…
615Total des jetons d'entrée…
72Jetons de sortie…
2,709Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.68sTemps de réponse (max)2.03sTemps de réponse (total)3.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.05sTemps de réponse (max)5.64sTemps de réponse (total)12.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.05sTemps de réponse (moy.)…
558Total des jetons d'entrée…
183Jetons de sortie…
4,365Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)1.93sTemps de réponse (max)1.97sTemps de réponse (total)3.87sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)12.60sTemps de réponse (max)12.60sTemps de réponse (total)12.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
12.60sTemps de réponse (moy.)…
5,532Total des jetons d'entrée…
234Jetons de sortie…
1,487Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
4.7Score moyen sur l’ensemble des tests de benchmark.…
1.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)3.39sTemps de réponse (max)3.39sTemps de réponse (total)3.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.50sTemps de réponse (max)5.50sTemps de réponse (total)5.50sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.50sTemps de réponse (moy.)…
156Total des jetons d'entrée…
11Jetons de sortie…
2,325Jetons de raisonnement…
Laguna Xs.2Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…