7.7Score moyen sur l’ensemble des tests de benchmark.…
7.4Score moyen sur l’ensemble des tests de benchmark.…
Cohérence
9.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
9.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Coût par résultat
4.095Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.492Coût total…
$0.000Coût total…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Délai dépassé: 1Temps de réponse (moy.)29.74sTemps de réponse (max)119.29sTemps de réponse (total)475.83sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 3Mauvaise réponse: 3Temps de réponse (moy.)29.10sTemps de réponse (max)170.45sTemps de réponse (total)290.96sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
79.2%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
68.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
48 (16 x 3)Exécutions totales…
48 (16 x 3)Exécutions totales…
Jetons de sortie
17,292Jetons de sortie…
71,452Jetons de sortie…
Jetons de raisonnement
145,625Jetons de raisonnement…
155,147Jetons de raisonnement…
Temps de réponse (moy.)
29.74sTemps de réponse (moy.)…
29.10sTemps de réponse (moy.)…
Temps de réponse (max)
119.29sTemps de réponse (max)…
170.45sTemps de réponse (max)…
Temps de réponse (total)
475.83sTemps de réponse (total)…
290.96sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score moy. vs Temps de réponse (moy.)
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.99sTemps de réponse (max)11.62sTemps de réponse (total)20.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.99sTemps de réponse (moy.)…
248Jetons de sortie…
10,486Jetons de raisonnement…
StepFun: Step 3.5 Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)18.54sTemps de réponse (max)32.30sTemps de réponse (total)37.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
18.54sTemps de réponse (moy.)…
13,924Jetons de sortie…
17,208Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)107.79sTemps de réponse (max)107.79sTemps de réponse (total)107.79sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
107.79sTemps de réponse (moy.)…
483Jetons de sortie…
11,337Jetons de raisonnement…
StepFun: Step 3.5 Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)29.57sTemps de réponse (max)29.57sTemps de réponse (total)29.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
29.57sTemps de réponse (moy.)…
1,176Jetons de sortie…
12,984Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.41sTemps de réponse (max)29.79sTemps de réponse (total)46.83sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
23.41sTemps de réponse (moy.)…
270Jetons de sortie…
16,558Jetons de raisonnement…
StepFun: Step 3.5 Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.01sTemps de réponse (max)15.01sTemps de réponse (total)15.01sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
15.01sTemps de réponse (moy.)…
600Jetons de sortie…
13,886Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
11.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)63.40sTemps de réponse (max)119.29sTemps de réponse (total)190.20sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
63.40sTemps de réponse (moy.)…
15,537Jetons de sortie…
64,889Jetons de raisonnement…
StepFun: Step 3.5 Flash
4.0Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)170.45sTemps de réponse (max)170.45sTemps de réponse (total)170.45sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
170.45sTemps de réponse (moy.)…
45,350Jetons de sortie…
90,436Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
2.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)34.11sTemps de réponse (max)34.11sTemps de réponse (total)34.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
34.11sTemps de réponse (moy.)…
66Jetons de sortie…
7,592Jetons de raisonnement…
StepFun: Step 3.5 Flash
6.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)6.54sTemps de réponse (max)6.54sTemps de réponse (total)6.54sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.54sTemps de réponse (moy.)…
2,214Jetons de sortie…
2,584Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.88sTemps de réponse (max)15.44sTemps de réponse (total)19.76sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.88sTemps de réponse (moy.)…
77Jetons de sortie…
7,372Jetons de raisonnement…
StepFun: Step 3.5 Flash
9.0Score moyen sur l’ensemble des tests de benchmark.…
6.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.98sTemps de réponse (max)4.98sTemps de réponse (total)4.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.98sTemps de réponse (moy.)…
2,284Jetons de sortie…
3,412Jetons de raisonnement…
Puzzle Solving
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.18sTemps de réponse (max)31.99sTemps de réponse (total)51.55sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
17.18sTemps de réponse (moy.)…
289Jetons de sortie…
26,165Jetons de raisonnement…
StepFun: Step 3.5 Flash
4.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)7.72sTemps de réponse (max)10.60sTemps de réponse (total)15.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.72sTemps de réponse (moy.)…
5,629Jetons de sortie…
10,835Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Qwen: Qwen3.5-122B-A10B
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.60sTemps de réponse (max)4.60sTemps de réponse (total)4.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.60sTemps de réponse (moy.)…
322Jetons de sortie…
1,226Jetons de raisonnement…
StepFun: Step 3.5 Flash
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.91sTemps de réponse (max)11.91sTemps de réponse (total)11.91sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…