6.7Score moyen sur l’ensemble des tests de benchmark.…
8.5Score moyen sur l’ensemble des tests de benchmark.…
Rang
#67
#15
Fiabilité
N/DScore de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
N/DScore de réussite au premier essai : 10.0 signifie aucun échec réessayable de l'API cible ou de limite de débit avant les appels réussis ; les échecs suivis réduisent le score.…
Cohérence
7.4Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)13.94sTemps de réponse (max)43.55sTemps de réponse (total)237.01sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Taux de réussite par tentative
64.8%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
76.5%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
Tests instables
6Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Exécutions totales
52Exécutions totales…
49Exécutions totales…
Coût par résultat
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
0.000Affiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).…
Coût total
$0.000Coût total…
$0.000Coût total…
Prix d'entrée
$0.000 / 1MPrix d'entrée…
$0.000 / 1MPrix d'entrée…
Prix de sortie
$0.000 / 1MPrix de sortie…
$0.000 / 1MPrix de sortie…
Jetons de sortie
4,724Jetons de sortie…
1,756Jetons de sortie…
Jetons de raisonnement
17,921Jetons de raisonnement…
77,213Jetons de raisonnement…
Temps de réponse (moy.)
10.33sTemps de réponse (moy.)…
13.94sTemps de réponse (moy.)…
Temps de réponse (max)
30.53sTemps de réponse (max)…
43.55sTemps de réponse (max)…
Temps de réponse (total)
175.60sTemps de réponse (total)…
237.01sTemps de réponse (total)…
Meilleurs modèles par score
Score vs coût total
Temps de réponse (moy.)
Score vs Temps de réponse (moy.)
Total des jetons de sortie
Score vs Total des jetons de sortie
Répartition par catégorie
Astuces anti-IA
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.3Score moyen sur l’ensemble des tests de benchmark.…
5.8Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
83.3%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)4.75sTemps de réponse (max)7.62sTemps de réponse (total)19.00sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.90sTemps de réponse (max)19.37sTemps de réponse (total)39.60sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
9.90sTemps de réponse (moy.)…
207Jetons de sortie…
7,557Jetons de raisonnement…
Programmation
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0msUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
4.7Score moyen sur l’ensemble des tests de benchmark.…
1.6Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)30.53sTemps de réponse (max)30.53sTemps de réponse (total)30.53sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)34.95sTemps de réponse (max)34.95sTemps de réponse (total)34.95sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
34.95sTemps de réponse (moy.)…
452Jetons de sortie…
13,073Jetons de raisonnement…
Analyse et extraction des données
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.16sTemps de réponse (max)26.55sTemps de réponse (total)46.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)14.95sTemps de réponse (max)15.40sTemps de réponse (total)29.90sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
14.95sTemps de réponse (moy.)…
270Jetons de sortie…
10,706Jetons de raisonnement…
Spécifique au domaine
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)10.52sTemps de réponse (max)18.68sTemps de réponse (total)31.56sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
3.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)22.08sTemps de réponse (max)43.55sTemps de réponse (total)66.23sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
22.08sTemps de réponse (moy.)…
49Jetons de sortie…
26,895Jetons de raisonnement…
Intelligence générale
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
7.0Score moyen sur l’ensemble des tests de benchmark.…
3.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
1Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)6.44sTemps de réponse (max)6.44sTemps de réponse (total)6.44sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
5.1Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
0.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)27.05sTemps de réponse (max)27.05sTemps de réponse (total)27.05sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
27.05sTemps de réponse (moy.)…
111Jetons de sortie…
5,232Jetons de raisonnement…
Suivi des instructions
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
9.9Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.18sTemps de réponse (max)4.46sTemps de réponse (total)8.36sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.54sTemps de réponse (max)11.67sTemps de réponse (total)15.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
7.54sTemps de réponse (moy.)…
102Jetons de sortie…
5,552Jetons de raisonnement…
Résolution d'énigmes
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
6.1Score moyen sur l’ensemble des tests de benchmark.…
4.7Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
66.7%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
2Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)5.36sTemps de réponse (max)6.20sTemps de réponse (total)16.07sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.11sTemps de réponse (max)7.52sTemps de réponse (total)18.34sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
6.11sTemps de réponse (moy.)…
298Jetons de sortie…
6,868Jetons de raisonnement…
Appel d'outils
Score
Cohérence
Taux de réussite par tentative
Tests instables
Tests corrects
Temps de réponse (moy.)
Jetons de sortie
Jetons de raisonnement
Hunter AlphaModèle archivé : ce modèle n'est plus mis à jour ni testé sur de nouveaux tests.
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.33sTemps de réponse (max)17.33sTemps de réponse (total)17.33sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…
10.0Score moyen sur l’ensemble des tests de benchmark.…
10.0Le score de cohérence reflète la stabilité entre exécutions (10 = très cohérent, même si constamment faux).…
100.0%Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les exécutions.…
0Les tests instables ont eu des résultats mixtes entre exécutions (au moins une réussite et un échec).…
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.87sTemps de réponse (max)5.87sTemps de réponse (total)5.87sUn test est entièrement réussi uniquement si toutes ses exécutions réussissent.…