Anthropic: Claude Opus 4.7 vs Google: Gemini 3.1 Pro Preview
Résumé
Comparaison benchmark Claude Opus 4.7 vs Gemini 3.1 Pro Preview : Gemini 3.1 Pro Preview mène au score moyen avec 9.2 vs 7.4. Claude Opus 4.7 a le coût de benchmark le plus bas avec $0.505 vs $1.054. Claude Opus 4.7 est plus rapide avec 3.02s vs 20.14s, avec des taux de réussite de 76.2% vs 90.5%.
Modèle recommandé: Claude Opus 4.7 - Il offre le meilleur compromis global: score compétitif (7.4), coût inférieur à Gemini 3.1 Pro Preview et temps de réponse équilibré.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-06-18
Métrique
Claude Opus 4.7Claude Opus 4.7noneModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.Sortie: 2026-04-16
7.4Score moyen sur l’ensemble des tests de benchmark.…
9.2Score moyen sur l’ensemble des tests de benchmark.…
Rang
#49
#7
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)3.02sTemps de réponse (max)18.27sTemps de réponse (total)57.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)20.14sTemps de réponse (max)88.68sTemps de réponse (total)281.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
76.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
90.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
57Exécutions totales…
63Exécutions totales…
Coût par résultat
3.154Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
5.546Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.505Coût total (prix actuel)…
$1.054Coût total (prix actuel)…
Prix d'entrée
$5.000 / 1MPrix d'entrée…
$2.000 / 1MPrix d'entrée…
Prix de sortie
$25.000 / 1MPrix de sortie…
$12.000 / 1MPrix de sortie…
Total des jetons d'entrée
69,576Total des jetons d'entrée…
41,617Total des jetons d'entrée…
Jetons de sortie
6,265Jetons de sortie…
1,977Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
78,896Jetons de raisonnement…
Temps de réponse (moy.)
3.02sTemps de réponse (moy.)…
20.14sTemps de réponse (moy.)…
Temps de réponse (max)
18.27sTemps de réponse (max)…
88.68sTemps de réponse (max)…
Temps de réponse (total)
57.44sTemps de réponse (total)…
281.92sTemps de réponse (total)…
Génération showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#49 Claude Opus 4.7
none
Coût
$0.051
Temps
24.2s
Tokens
2,181 tok
#7 Gemini 3.1 Pro Preview
medium
Coût
$0.115
Temps
87.2s
Tokens
9,629 tok
Score
-
Coût
-
Temps
-
Tokens
-
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score vs Temps de réponse (moy.)
Total des jetons de sortie
Score vs Total des jetons de sortie
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
8.3Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
75.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.12sTemps de réponse (max)3.75sTemps de réponse (total)8.50sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.90sTemps de réponse (max)9.52sTemps de réponse (total)15.80sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.90sTemps de réponse (moy.)…
498Total des jetons d'entrée…
112Jetons de sortie…
3,218Jetons de raisonnement…
Programmation
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.3Score moyen sur l’ensemble des tests de benchmark.…
3.3Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.84sTemps de réponse (max)2.84sTemps de réponse (total)2.84sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.9Score moyen sur l’ensemble des tests de benchmark.…
9.9Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)40.17sTemps de réponse (max)88.68sTemps de réponse (total)120.52sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
40.17sTemps de réponse (moy.)…
8,124Total des jetons d'entrée…
435Jetons de sortie…
41,247Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)18.27sTemps de réponse (max)18.27sTemps de réponse (total)18.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)40.61sTemps de réponse (max)40.61sTemps de réponse (total)40.61sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
40.61sTemps de réponse (moy.)…
17,240Total des jetons d'entrée…
432Jetons de sortie…
9,281Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.15sTemps de réponse (max)2.33sTemps de réponse (total)4.29sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.72sTemps de réponse (max)7.72sTemps de réponse (total)7.72sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.72sTemps de réponse (moy.)…
7,265Total des jetons d'entrée…
279Jetons de sortie…
3,904Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.19sTemps de réponse (max)1.40sTemps de réponse (total)3.58sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.7Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)32.73sTemps de réponse (max)32.73sTemps de réponse (total)32.73sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
32.73sTemps de réponse (moy.)…
635Total des jetons d'entrée…
18Jetons de sortie…
12,424Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.47sTemps de réponse (max)3.47sTemps de réponse (total)3.47sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.77sTemps de réponse (max)11.77sTemps de réponse (total)11.77sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
11.77sTemps de réponse (moy.)…
490Total des jetons d'entrée…
108Jetons de sortie…
1,179Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.46sTemps de réponse (max)1.68sTemps de réponse (total)2.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.56sTemps de réponse (max)9.56sTemps de réponse (total)9.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.56sTemps de réponse (moy.)…
621Total des jetons d'entrée…
72Jetons de sortie…
2,236Jetons de raisonnement…
Résolution d'énigmes
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.46sTemps de réponse (max)3.72sTemps de réponse (total)7.38sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.90sTemps de réponse (max)8.49sTemps de réponse (total)13.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.90sTemps de réponse (moy.)…
570Total des jetons d'entrée…
235Jetons de sortie…
3,128Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.74sTemps de réponse (max)4.74sTemps de réponse (total)4.74sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.15sTemps de réponse (max)23.15sTemps de réponse (total)23.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
23.15sTemps de réponse (moy.)…
6,018Total des jetons d'entrée…
274Jetons de sortie…
982Jetons de raisonnement…
Culture générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons d'entrée
Jetons de sortie
Jetons de raisonnement
Claude Opus 4.7Modèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.46sTemps de réponse (max)1.46sTemps de réponse (total)1.46sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.27sTemps de réponse (max)6.27sTemps de réponse (total)6.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…