7.41Score moyen sur l’ensemble des tests de benchmark.…
7.27Score moyen sur l’ensemble des tests de benchmark.…
7.84Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
9.45Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.26Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
2.261Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
2.835Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.151Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.227Coût total…
$0.256Coût total…
$0.016Coût total…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)7.16sTemps de réponse (max)38.52sTemps de réponse (total)100.19sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 2Temps de réponse (moy.)5.81sTemps de réponse (max)18.33sTemps de réponse (total)81.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)2.88sTemps de réponse (max)9.54sTemps de réponse (total)40.39sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
73.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
73.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
71.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
3Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Jetons de sortie
14,267Jetons de sortie…
16,339Jetons de sortie…
1,317Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
0Jetons de raisonnement…
6,126Jetons de raisonnement…
Meilleurs modèles par score
Score vs coût total
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.2 Chat
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.97sTemps de réponse (max)4.78sTemps de réponse (total)11.90sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1,651Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
7.33Score moyen sur l’ensemble des tests de benchmark.…
7.49Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
77.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.72sTemps de réponse (max)7.35sTemps de réponse (total)14.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3,091Jetons de sortie…
0Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
7.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.18sTemps de réponse (max)3.18sTemps de réponse (total)6.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
456Jetons de sortie…
1,224Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.2 Chat
9.88Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.05sTemps de réponse (max)3.33sTemps de réponse (total)6.10sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
980Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
9.88Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.21sTemps de réponse (max)2.52sTemps de réponse (total)4.42sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
942Jetons de sortie…
0Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
9.88Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.00sTemps de réponse (max)3.74sTemps de réponse (total)5.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
291Jetons de sortie…
696Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.2 Chat
4.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)17.78sTemps de réponse (max)38.52sTemps de réponse (total)53.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7,810Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
1.00Score moyen sur l’ensemble des tests de benchmark.…
4.41Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)13.01sTemps de réponse (max)18.33sTemps de réponse (total)39.04sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
8,264Jetons de sortie…
0Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
4.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)2.36sTemps de réponse (max)3.51sTemps de réponse (total)7.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
18Jetons de sortie…
1,212Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.2 Chat
5.50Score moyen sur l’ensemble des tests de benchmark.…
6.13Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.46sTemps de réponse (max)6.45sTemps de réponse (total)10.92sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1,528Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
8.50Score moyen sur l’ensemble des tests de benchmark.…
9.99Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)3.29sTemps de réponse (max)4.18sTemps de réponse (total)6.59sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1,455Jetons de sortie…
0Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
8.50Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.49sTemps de réponse (max)1.66sTemps de réponse (total)2.99sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
72Jetons de sortie…
753Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.2 Chat
7.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.42sTemps de réponse (max)5.04sTemps de réponse (total)13.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1,743Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.93sTemps de réponse (max)3.05sTemps de réponse (total)8.78sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1,726Jetons de sortie…
0Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.76sTemps de réponse (max)5.08sTemps de réponse (total)8.27sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
243Jetons de sortie…
1,248Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Jetons de sortie
Jetons de raisonnement
OpenAI: GPT-5.2 Chat
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.68sTemps de réponse (max)4.68sTemps de réponse (total)4.68sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
555Jetons de sortie…
0Jetons de raisonnement…
OpenAI: GPT-5.3 Chat
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)8.36sTemps de réponse (max)8.36sTemps de réponse (total)8.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
861Jetons de sortie…
0Jetons de raisonnement…
Google: Gemini 3.1 Flash Lite Preview
10.00Score moyen sur l’ensemble des tests de benchmark.…
10.00Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.54sTemps de réponse (max)9.54sTemps de réponse (total)9.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…