Comparaison benchmark GPT-5.5 vs Laguna M.1 : GPT-5.5 mène au score moyen avec 9.3 vs 5.7. Laguna M.1 a le coût de benchmark le plus bas avec $0.000 vs $0.907. GPT-5.5 est plus rapide avec 9.76s vs 14.73s, avec des taux de réussite de 85.7% vs 52.6%.
Modèle recommandé: GPT-5.5 - Il obtient le meilleur score ici (9.3) et répond environ 1.5x plus vite que Laguna M.1.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-12
Laguna M.1Laguna M.1mediumModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-04-28Disponible gratuitement
Score
9.3Score moyen sur l’ensemble des tests de benchmark.…
5.7Score moyen sur l’ensemble des tests de benchmark.…
Rang
#5
#117
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)9.76sTemps de réponse (max)56.19sTemps de réponse (total)204.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 4Mauvaise réponse: 4N'a pas suivi les instructions: 1Aucune réponse: 1Temps de réponse (moy.)14.73sTemps de réponse (max)53.14sTemps de réponse (total)220.93sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
85.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
52.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
57Exécutions totales…
Coût par résultat
5.035Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.907Coût total (prix actuel)…
$0.000Coût total (prix actuel)…
Prix d'entrée
$5.000 / 1MPrix d'entrée…
$0.000 / 1MPrix d'entrée…
Prix de sortie
$30.000 / 1MPrix de sortie…
$0.000 / 1MPrix de sortie…
Total des jetons d'entrée
34,209Total des jetons d'entrée…
44,969Total des jetons d'entrée…
Jetons de sortie
2,046Jetons de sortie…
58,087Jetons de sortie…
Jetons de raisonnement
22,460Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
9.76sTemps de réponse (moy.)…
14.73sTemps de réponse (moy.)…
Temps de réponse (max)
56.19sTemps de réponse (max)…
53.14sTemps de réponse (max)…
Temps de réponse (total)
204.92sTemps de réponse (total)…
220.93sTemps de réponse (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#5 GPT-5.5
low
Cost
$0.068
Time
37.0s
Tokens
2,339 tok
#117 Laguna M.1
medium
No showcase result has been generated for this model yet.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.41sTemps de réponse (max)6.32sTemps de réponse (total)17.64sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.41sTemps de réponse (moy.)…
606Total des jetons d'entrée…
238Jetons de sortie…
1,020Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)4.87sTemps de réponse (max)6.30sTemps de réponse (total)14.62sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.04sTemps de réponse (max)21.06sTemps de réponse (total)45.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
15.04sTemps de réponse (moy.)…
7,302Total des jetons d'entrée…
423Jetons de sortie…
6,402Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
4.3Score moyen sur l’ensemble des tests de benchmark.…
1.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)35.61sTemps de réponse (max)35.61sTemps de réponse (total)35.61sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.56sTemps de réponse (max)9.56sTemps de réponse (total)9.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.56sTemps de réponse (moy.)…
11,019Total des jetons d'entrée…
303Jetons de sortie…
717Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)53.14sTemps de réponse (max)53.14sTemps de réponse (total)53.14sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.28sTemps de réponse (max)5.13sTemps de réponse (total)6.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.28sTemps de réponse (moy.)…
7,140Total des jetons d'entrée…
228Jetons de sortie…
157Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.93sTemps de réponse (max)5.03sTemps de réponse (total)9.86sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)28.05sTemps de réponse (max)56.19sTemps de réponse (total)84.16sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
28.05sTemps de réponse (moy.)…
723Total des jetons d'entrée…
69Jetons de sortie…
11,609Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)24.14sTemps de réponse (max)45.83sTemps de réponse (total)72.43sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.17sTemps de réponse (max)5.17sTemps de réponse (total)5.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.17sTemps de réponse (moy.)…
477Total des jetons d'entrée…
133Jetons de sortie…
245Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.74sTemps de réponse (max)3.99sTemps de réponse (total)7.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.74sTemps de réponse (moy.)…
660Total des jetons d'entrée…
93Jetons de sortie…
415Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.30sTemps de réponse (max)6.00sTemps de réponse (total)8.59sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.74sTemps de réponse (max)5.61sTemps de réponse (total)14.21sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.74sTemps de réponse (moy.)…
642Total des jetons d'entrée…
279Jetons de sortie…
954Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)10.19sTemps de réponse (max)14.92sTemps de réponse (total)20.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.96sTemps de réponse (max)4.96sTemps de réponse (total)4.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.96sTemps de réponse (moy.)…
5,445Total des jetons d'entrée…
250Jetons de sortie…
101Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.31sTemps de réponse (max)6.31sTemps de réponse (total)6.31sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.06sTemps de réponse (max)10.06sTemps de réponse (total)10.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.06sTemps de réponse (moy.)…
195Total des jetons d'entrée…
30Jetons de sortie…
840Jetons de raisonnement…
Laguna M.1Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…