Comparaison benchmark GPT-5.5 vs Mimo V2 PRO : GPT-5.5 mène au score moyen avec 9.3 vs 5.8. Mimo V2 PRO a le coût de benchmark le plus bas avec $0.045 vs $0.907. Mimo V2 PRO est plus rapide avec 2.27s vs 9.76s, avec des taux de réussite de 85.7% vs 41.3%.
Modèle recommandé: GPT-5.5 - Il obtient le meilleur score de cette comparaison (9.3) et le meilleur équilibre global entre coût et temps de réponse sur les 2 modèles.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18
Mimo V2 PROMimo V2 PROnoneModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-03-18
Score
9.3Score moyen sur l’ensemble des tests de benchmark.…
5.8Score moyen sur l’ensemble des tests de benchmark.…
Rang
#4
#109
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)9.76sTemps de réponse (max)56.19sTemps de réponse (total)204.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11N'a pas suivi les instructions: 2Erreur API: 1Temps de réponse (moy.)2.27sTemps de réponse (max)6.58sTemps de réponse (total)45.50sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
85.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
41.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
63Exécutions totales…
63Exécutions totales…
Coût par résultat
5.035Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.663Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.907Coût total (prix actuel)…
$0.045Coût total (prix actuel)…
Prix d'entrée
$5.000 / 1MPrix d'entrée…
$1.076 / 1MPrix d'entrée…
Prix de sortie
$30.000 / 1MPrix de sortie…
$1.076 / 1MPrix de sortie…
Total des jetons d'entrée
34,209Total des jetons d'entrée…
39,344Total des jetons d'entrée…
Jetons de sortie
2,046Jetons de sortie…
2,352Jetons de sortie…
Jetons de raisonnement
22,460Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
9.76sTemps de réponse (moy.)…
2.27sTemps de réponse (moy.)…
Temps de réponse (max)
56.19sTemps de réponse (max)…
6.58sTemps de réponse (max)…
Temps de réponse (total)
204.92sTemps de réponse (total)…
45.50sTemps de réponse (total)…
Génération showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#4 GPT-5.5
low
Coût
$0.068
Temps
37.0s
Tokens
2,339 tok
#109 Mimo V2 PRO
none
This model has been deprecated. It is recommended to migrate to xiaomi/mimo-v2.5-pro
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.41sTemps de réponse (max)6.32sTemps de réponse (total)17.64sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.41sTemps de réponse (moy.)…
606Total des jetons d'entrée…
238Jetons de sortie…
1,020Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.5Score moyen sur l’ensemble des tests de benchmark.…
8.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
16.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)1.80sTemps de réponse (max)2.62sTemps de réponse (total)7.19sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.04sTemps de réponse (max)21.06sTemps de réponse (total)45.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
15.04sTemps de réponse (moy.)…
7,302Total des jetons d'entrée…
423Jetons de sortie…
6,402Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)2.65sTemps de réponse (max)3.82sTemps de réponse (total)5.30sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.56sTemps de réponse (max)9.56sTemps de réponse (total)9.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.56sTemps de réponse (moy.)…
11,019Total des jetons d'entrée…
303Jetons de sortie…
717Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.58sTemps de réponse (max)6.58sTemps de réponse (total)6.58sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.28sTemps de réponse (max)5.13sTemps de réponse (total)6.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.28sTemps de réponse (moy.)…
7,140Total des jetons d'entrée…
228Jetons de sortie…
157Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.39sTemps de réponse (max)1.42sTemps de réponse (total)2.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)28.05sTemps de réponse (max)56.19sTemps de réponse (total)84.16sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
28.05sTemps de réponse (moy.)…
723Total des jetons d'entrée…
69Jetons de sortie…
11,609Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.78sTemps de réponse (max)2.49sTemps de réponse (total)5.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.17sTemps de réponse (max)5.17sTemps de réponse (total)5.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.17sTemps de réponse (moy.)…
477Total des jetons d'entrée…
133Jetons de sortie…
245Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
4.3Score moyen sur l’ensemble des tests de benchmark.…
9.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.44sTemps de réponse (max)2.44sTemps de réponse (total)2.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.74sTemps de réponse (max)3.99sTemps de réponse (total)7.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.74sTemps de réponse (moy.)…
660Total des jetons d'entrée…
93Jetons de sortie…
415Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.51sTemps de réponse (max)2.95sTemps de réponse (total)5.02sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.74sTemps de réponse (max)5.61sTemps de réponse (total)14.21sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.74sTemps de réponse (moy.)…
642Total des jetons d'entrée…
279Jetons de sortie…
954Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.0Score moyen sur l’ensemble des tests de benchmark.…
7.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
55.6%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.61sTemps de réponse (max)2.15sTemps de réponse (total)4.83sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.96sTemps de réponse (max)4.96sTemps de réponse (total)4.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.96sTemps de réponse (moy.)…
5,445Total des jetons d'entrée…
250Jetons de sortie…
101Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.39sTemps de réponse (max)4.39sTemps de réponse (total)4.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.06sTemps de réponse (max)10.06sTemps de réponse (total)10.06sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.06sTemps de réponse (moy.)…
195Total des jetons d'entrée…
30Jetons de sortie…
840Jetons de raisonnement…
Mimo V2 PROModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.63sTemps de réponse (max)1.63sTemps de réponse (total)1.63sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…