8.0Score moyen sur l’ensemble des tests de benchmark.…
5.6Score moyen sur l’ensemble des tests de benchmark.…
Rang
#22
#113
Fiabilité
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
10.0Score de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
9.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
8.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Tests corrects
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Erreur API: 1Temps de réponse (moy.)56.77sTemps de réponse (max)149.94sTemps de réponse (total)851.49sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 12N'a pas suivi les instructions: 1Appel d'outil invalide: 1Temps de réponse (moy.)4.16sTemps de réponse (max)32.57sTemps de réponse (total)83.23sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
77.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
40.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
5Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
60Exécutions totales…
60Exécutions totales…
Coût par résultat
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.941Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.000Coût total…
$0.057Coût total…
Prix d'entrée
$0.066 / 1MPrix d'entrée…
$0.980 / 1MPrix d'entrée…
Prix de sortie
$0.260 / 1MPrix de sortie…
$3.080 / 1MPrix de sortie…
Jetons de sortie
216,503Jetons de sortie…
3,749Jetons de sortie…
Jetons de raisonnement
0Jetons de raisonnement…
0Jetons de raisonnement…
Temps de réponse (moy.)
56.77sTemps de réponse (moy.)…
4.16sTemps de réponse (moy.)…
Temps de réponse (max)
149.94sTemps de réponse (max)…
32.57sTemps de réponse (max)…
Temps de réponse (total)
851.49sTemps de réponse (total)…
83.23sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score vs Temps de réponse (moy.)
Total des jetons de sortie
Score vs Total des jetons de sortie
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
8.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.12sTemps de réponse (max)19.99sTemps de réponse (total)45.37sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.0Score moyen sur l’ensemble des tests de benchmark.…
6.3Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
25.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)2.11sTemps de réponse (max)3.94sTemps de réponse (total)8.46sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.11sTemps de réponse (moy.)…
305Jetons de sortie…
0Jetons de raisonnement…
Programmation
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)99.76sTemps de réponse (max)99.76sTemps de réponse (total)99.76sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
4.3Score moyen sur l’ensemble des tests de benchmark.…
9.5Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)6.33sTemps de réponse (max)9.79sTemps de réponse (total)12.65sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.33sTemps de réponse (moy.)…
519Jetons de sortie…
0Jetons de raisonnement…
Combiné
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)113.09sTemps de réponse (max)113.09sTemps de réponse (total)113.09sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.8Score moyen sur l’ensemble des tests de benchmark.…
2.1Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
33.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)32.57sTemps de réponse (max)32.57sTemps de réponse (total)32.57sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
32.57sTemps de réponse (moy.)…
2,129Jetons de sortie…
0Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.5Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
50.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)12.11sTemps de réponse (max)12.11sTemps de réponse (total)12.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.08sTemps de réponse (max)1.62sTemps de réponse (total)2.15sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.08sTemps de réponse (moy.)…
204Jetons de sortie…
0Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
5.3Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)109.04sTemps de réponse (max)149.94sTemps de réponse (total)327.11sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
2.9Score moyen sur l’ensemble des tests de benchmark.…
7.2Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
11.1%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.99sTemps de réponse (max)3.99sTemps de réponse (total)5.98sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.99sTemps de réponse (moy.)…
24Jetons de sortie…
0Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
0.0Score moyen sur l’ensemble des tests de benchmark.…
0.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)790msTemps de réponse (max)790msTemps de réponse (total)790msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
790msTemps de réponse (moy.)…
39Jetons de sortie…
0Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)34.02sTemps de réponse (max)41.83sTemps de réponse (total)68.04sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.8Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.58sTemps de réponse (max)1.69sTemps de réponse (total)3.17sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.58sTemps de réponse (moy.)…
66Jetons de sortie…
0Jetons de raisonnement…
Résolution d'énigmes
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)29.74sTemps de réponse (max)45.06sTemps de réponse (total)59.48sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.1Score moyen sur l’ensemble des tests de benchmark.…
7.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
44.4%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.48sTemps de réponse (max)2.09sTemps de réponse (total)4.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
1.48sTemps de réponse (moy.)…
152Jetons de sortie…
0Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)78.83sTemps de réponse (max)78.83sTemps de réponse (total)78.83sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.68sTemps de réponse (max)10.68sTemps de réponse (total)10.68sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.68sTemps de réponse (moy.)…
300Jetons de sortie…
0Jetons de raisonnement…
Culture générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hy3 previewModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)47.71sTemps de réponse (max)47.71sTemps de réponse (total)47.71sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.34sTemps de réponse (max)2.34sTemps de réponse (total)2.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…