Suivez les meilleurs modèles IA SOTA avec le leaderboard d'AI BENCHY : un moyen simple de voir quels modèles dominent actuellement en score, qualité de raisonnement, fiabilité et valeur. Trier par: Coût total ↓.
Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-03-06Modèles évalués: 55
0/0
Aucune donnée disponible.
Rang
Modèle
Entreprise
ScoreScore moyen sur l’ensemble des tests de benchmark.
Coût par résultatAffiche le coût moyen par réponse correcte du benchmark, en centimes (plus bas est meilleur).
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Temps de réponse (moy.)68.83sTemps de réponse (max)280.52sTemps de réponse (total)1101.32s…
Tests totaux: 16Tests incorrects: 4Taux de réussite par tentative: 77.1%Tests instables: 1…Jetons de sortie: 1,283Jetons de raisonnement: 1,533,310Temps de réponse : moy. 68.83s · total 1101.32s · max 280.52s
Mauvaise réponse: 3N'a pas suivi les instructions: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)43.87sTemps de réponse (max)121.88sTemps de réponse (total)131.62s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)280.52sTemps de réponse (max)280.52sTemps de réponse (total)280.52s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.16sTemps de réponse (max)8.54sTemps de réponse (total)14.31s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)127.58sTemps de réponse (max)133.93sTemps de réponse (total)382.74s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.25sTemps de réponse (max)5.25sTemps de réponse (total)5.25s
Instructions following: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)70.07sTemps de réponse (max)136.53sTemps de réponse (total)140.14s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)46.33sTemps de réponse (max)134.22sTemps de réponse (total)139.00s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.73sTemps de réponse (max)7.73sTemps de réponse (total)7.73s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 4Mauvaise réponse: 2Temps de réponse (moy.)22.86sTemps de réponse (max)83.40sTemps de réponse (total)205.71s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 66.7%Tests instables: 2…Jetons de sortie: 26,254Jetons de raisonnement: 17,363Temps de réponse : moy. 22.86s · total 205.71s · max 83.40s
Mise en forme supplémentaire: 4Mauvaise réponse: 2
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Temps de réponse (moy.)11.88sTemps de réponse (max)11.88sTemps de réponse (total)11.88s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)76.66sTemps de réponse (max)76.66sTemps de réponse (total)76.66s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.37sTemps de réponse (max)7.37sTemps de réponse (total)7.37s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Mauvaise réponse: 1Temps de réponse (moy.)83.40sTemps de réponse (max)83.40sTemps de réponse (total)83.40s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.04sTemps de réponse (max)5.04sTemps de réponse (total)5.04s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.43sTemps de réponse (max)2.43sTemps de réponse (total)2.43s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.60sTemps de réponse (max)4.66sTemps de réponse (total)9.20s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.73sTemps de réponse (max)9.73sTemps de réponse (total)9.73s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)11.23sTemps de réponse (max)46.35sTemps de réponse (total)89.84s…
Tests totaux: 16Tests incorrects: 4Taux de réussite par tentative: 77.1%Tests instables: 1…Jetons de sortie: 35,159Jetons de raisonnement: 24,687Temps de réponse : moy. 11.23s · total 89.84s · max 46.35s
Mise en forme supplémentaire: 2Délai dépassé: 1Mauvaise réponse: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)4.95sTemps de réponse (max)4.95sTemps de réponse (total)4.95s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)46.35sTemps de réponse (max)46.35sTemps de réponse (total)46.35s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.90sTemps de réponse (max)13.90sTemps de réponse (total)13.90s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.94sTemps de réponse (max)4.94sTemps de réponse (total)4.94s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.61sTemps de réponse (max)2.61sTemps de réponse (total)2.61s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.80sTemps de réponse (max)5.22sTemps de réponse (total)9.60s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.48sTemps de réponse (max)7.48sTemps de réponse (total)7.48s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 2Temps de réponse (moy.)20.05sTemps de réponse (max)100.41sTemps de réponse (total)320.87s…
Tests totaux: 16Tests incorrects: 4Taux de réussite par tentative: 83.3%Tests instables: 3…Jetons de sortie: 1,756Jetons de raisonnement: 46,642Temps de réponse : moy. 20.05s · total 320.87s · max 100.41s
N'a pas suivi les instructions: 2Mauvaise réponse: 2
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.02sTemps de réponse (max)6.42sTemps de réponse (total)15.06s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)20.57sTemps de réponse (max)20.57sTemps de réponse (total)20.57s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.32sTemps de réponse (max)5.40sTemps de réponse (total)10.64s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)74.27sTemps de réponse (max)100.41sTemps de réponse (total)222.80s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.92sTemps de réponse (max)4.92sTemps de réponse (total)4.92s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.11sTemps de réponse (max)3.68sTemps de réponse (total)6.22s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)9.13sTemps de réponse (max)18.14sTemps de réponse (total)27.39s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.28sTemps de réponse (max)13.28sTemps de réponse (total)13.28s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 2Temps de réponse (moy.)16.59sTemps de réponse (max)100.93sTemps de réponse (total)265.39s…
Tests totaux: 16Tests incorrects: 4Taux de réussite par tentative: 83.3%Tests instables: 2…Jetons de sortie: 1,764Jetons de raisonnement: 33,348Temps de réponse : moy. 16.59s · total 265.39s · max 100.93s
N'a pas suivi les instructions: 2Mauvaise réponse: 2
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.69sTemps de réponse (max)6.68sTemps de réponse (total)14.06s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)19.56sTemps de réponse (max)19.56sTemps de réponse (total)19.56s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.07sTemps de réponse (max)3.59sTemps de réponse (total)6.15s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)64.31sTemps de réponse (max)100.93sTemps de réponse (total)192.94s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.87sTemps de réponse (max)4.87sTemps de réponse (total)4.87s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.04sTemps de réponse (max)3.44sTemps de réponse (total)6.07s
Puzzle Solving: 9.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.12sTemps de réponse (max)8.73sTemps de réponse (total)15.37s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.37sTemps de réponse (max)6.37sTemps de réponse (total)6.37s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)16.60sTemps de réponse (max)40.61sTemps de réponse (total)149.36s…
Tests totaux: 16Tests incorrects: 1Taux de réussite par tentative: 93.8%Tests instables: 0…Jetons de sortie: 1,521Jetons de raisonnement: 35,656Temps de réponse : moy. 16.60s · total 149.36s · max 40.61s
Mauvaise réponse: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.52sTemps de réponse (max)9.52sTemps de réponse (total)9.52s
Combined: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)40.61sTemps de réponse (max)40.61sTemps de réponse (total)40.61s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.72sTemps de réponse (max)7.72sTemps de réponse (total)7.72s
Domain specific: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)32.73sTemps de réponse (max)32.73sTemps de réponse (total)32.73s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.77sTemps de réponse (max)11.77sTemps de réponse (total)11.77s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.56sTemps de réponse (max)9.56sTemps de réponse (total)9.56s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.15sTemps de réponse (max)8.49sTemps de réponse (total)14.30s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.15sTemps de réponse (max)23.15sTemps de réponse (total)23.15s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Délai dépassé: 1Temps de réponse (moy.)29.74sTemps de réponse (max)119.29sTemps de réponse (total)475.83s…
Tests totaux: 16Tests incorrects: 4Taux de réussite par tentative: 79.2%Tests instables: 2…Jetons de sortie: 17,292Jetons de raisonnement: 145,625Temps de réponse : moy. 29.74s · total 475.83s · max 119.29s
Mauvaise réponse: 3Délai dépassé: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.99sTemps de réponse (max)11.62sTemps de réponse (total)20.98s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)107.79sTemps de réponse (max)107.79sTemps de réponse (total)107.79s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.41sTemps de réponse (max)29.79sTemps de réponse (total)46.83s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)63.40sTemps de réponse (max)119.29sTemps de réponse (total)190.20s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)34.11sTemps de réponse (max)34.11sTemps de réponse (total)34.11s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.88sTemps de réponse (max)15.44sTemps de réponse (total)19.76s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.18sTemps de réponse (max)31.99sTemps de réponse (total)51.55s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.60sTemps de réponse (max)4.60sTemps de réponse (total)4.60s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)52.13sTemps de réponse (max)163.96sTemps de réponse (total)834.16s…
Tests totaux: 16Tests incorrects: 4Taux de réussite par tentative: 81.3%Tests instables: 2…Jetons de sortie: 1,658Jetons de raisonnement: 200,786Temps de réponse : moy. 52.13s · total 834.16s · max 163.96s
N'a pas suivi les instructions: 2Délai dépassé: 1Mauvaise réponse: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.69sTemps de réponse (max)10.84sTemps de réponse (total)29.06s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)163.96sTemps de réponse (max)163.96sTemps de réponse (total)163.96s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)30.26sTemps de réponse (max)32.03sTemps de réponse (total)60.52s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)79.53sTemps de réponse (max)95.52sTemps de réponse (total)238.59s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)101.41sTemps de réponse (max)101.41sTemps de réponse (total)101.41s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)19.66sTemps de réponse (max)32.25sTemps de réponse (total)39.32s
Puzzle Solving: 8.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)64.61sTemps de réponse (max)123.57sTemps de réponse (total)193.84s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.45sTemps de réponse (max)7.45sTemps de réponse (total)7.45s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 4Mauvaise réponse: 2Erreur API: 1Aucune réponse: 1Temps de réponse (moy.)43.93sTemps de réponse (max)106.00sTemps de réponse (total)702.85s…
Tests totaux: 16Tests incorrects: 8Taux de réussite par tentative: 77.1%Tests instables: 7…Jetons de sortie: 5,495Jetons de raisonnement: 169,266Temps de réponse : moy. 43.93s · total 702.85s · max 106.00s
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)21.75sTemps de réponse (max)34.96sTemps de réponse (total)65.26s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)75.34sTemps de réponse (max)75.34sTemps de réponse (total)75.34s
Data parsing and extraction: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)59.33sTemps de réponse (max)97.12sTemps de réponse (total)118.65s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 2Mauvaise réponse: 1Temps de réponse (moy.)88.34sTemps de réponse (max)106.00sTemps de réponse (total)265.01s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)30.30sTemps de réponse (max)30.30sTemps de réponse (total)30.30s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)24.45sTemps de réponse (max)43.36sTemps de réponse (total)48.89s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)31.58sTemps de réponse (max)60.18sTemps de réponse (total)94.75s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.65sTemps de réponse (max)4.65sTemps de réponse (total)4.65s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 2Temps de réponse (moy.)5.96sTemps de réponse (max)18.33sTemps de réponse (total)95.30s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 70.8%Tests instables: 3…Jetons de sortie: 19,272Jetons de raisonnement: 0Temps de réponse : moy. 5.96s · total 95.30s · max 18.33s
Mauvaise réponse: 4N'a pas suivi les instructions: 2
Anti-AI Tricks: 7.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.72sTemps de réponse (max)7.35sTemps de réponse (total)14.17s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.96sTemps de réponse (max)11.96sTemps de réponse (total)11.96s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.21sTemps de réponse (max)2.52sTemps de réponse (total)4.42s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)13.01sTemps de réponse (max)18.33sTemps de réponse (total)39.04s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.99sTemps de réponse (max)1.99sTemps de réponse (total)1.99s
Instructions following: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.29sTemps de réponse (max)4.18sTemps de réponse (total)6.59s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.93sTemps de réponse (max)3.05sTemps de réponse (total)8.78s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)8.36sTemps de réponse (max)8.36sTemps de réponse (total)8.36s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 3Aucune réponse: 1Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)15.33sTemps de réponse (max)77.80sTemps de réponse (total)138.01s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 75.0%Tests instables: 4…Jetons de sortie: 2,220Jetons de raisonnement: 16,811Temps de réponse : moy. 15.33s · total 138.01s · max 77.80s
N'a pas suivi les instructions: 3Aucune réponse: 1Délai dépassé: 1Mauvaise réponse: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)14.34sTemps de réponse (max)14.34sTemps de réponse (total)14.34s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)14.06sTemps de réponse (max)14.06sTemps de réponse (total)14.06s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.15sTemps de réponse (max)3.15sTemps de réponse (total)3.15s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)77.80sTemps de réponse (max)77.80sTemps de réponse (total)77.80s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.32sTemps de réponse (max)4.32sTemps de réponse (total)4.32s
Instructions following: 9.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.12sTemps de réponse (max)3.12sTemps de réponse (total)3.12s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.47sTemps de réponse (max)6.45sTemps de réponse (total)10.94s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)10.30sTemps de réponse (max)10.30sTemps de réponse (total)10.30s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 1Temps de réponse (moy.)12.35sTemps de réponse (max)95.48sTemps de réponse (total)197.62s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 72.9%Tests instables: 1…Jetons de sortie: 1,370Jetons de raisonnement: 110,522Temps de réponse : moy. 12.35s · total 197.62s · max 95.48s
Mauvaise réponse: 4N'a pas suivi les instructions: 1
Anti-AI Tricks: 7.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.98sTemps de réponse (max)15.56sTemps de réponse (total)20.95s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)28.44sTemps de réponse (max)28.44sTemps de réponse (total)28.44s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.06sTemps de réponse (max)5.06sTemps de réponse (total)8.11s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)37.34sTemps de réponse (max)95.48sTemps de réponse (total)112.01s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.86sTemps de réponse (max)4.86sTemps de réponse (total)4.86s
Instructions following: 9.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.62sTemps de réponse (max)2.78sTemps de réponse (total)5.24s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.94sTemps de réponse (max)6.33sTemps de réponse (total)11.83s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.20sTemps de réponse (max)6.20sTemps de réponse (total)6.20s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 1Temps de réponse (moy.)7.03sTemps de réponse (max)38.52sTemps de réponse (total)112.51s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 75.0%Tests instables: 2…Jetons de sortie: 15,845Jetons de raisonnement: 0Temps de réponse : moy. 7.03s · total 112.51s · max 38.52s
Mauvaise réponse: 4N'a pas suivi les instructions: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.97sTemps de réponse (max)4.78sTemps de réponse (total)11.90s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.12sTemps de réponse (max)9.12sTemps de réponse (total)9.12s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.05sTemps de réponse (max)3.33sTemps de réponse (total)6.10s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)17.78sTemps de réponse (max)38.52sTemps de réponse (total)53.33s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)3.20sTemps de réponse (max)3.20sTemps de réponse (total)3.20s
Instructions following: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.46sTemps de réponse (max)6.45sTemps de réponse (total)10.92s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.42sTemps de réponse (max)5.04sTemps de réponse (total)13.27s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.68sTemps de réponse (max)4.68sTemps de réponse (total)4.68s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 3Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)5.57sTemps de réponse (max)23.84sTemps de réponse (total)50.12s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 66.7%Tests instables: 1…Jetons de sortie: 6,895Jetons de raisonnement: 0Temps de réponse : moy. 5.57s · total 50.12s · max 23.84s
Mise en forme supplémentaire: 3Mauvaise réponse: 2N'a pas suivi les instructions: 1
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Temps de réponse (moy.)4.83sTemps de réponse (max)4.83sTemps de réponse (total)4.83s
Combined: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.84sTemps de réponse (max)23.84sTemps de réponse (total)23.84s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.43sTemps de réponse (max)3.43sTemps de réponse (total)3.43s
Domain specific: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.54sTemps de réponse (max)3.54sTemps de réponse (total)3.54s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.56sTemps de réponse (max)2.56sTemps de réponse (total)2.56s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.96sTemps de réponse (max)1.96sTemps de réponse (total)1.96s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)2.92sTemps de réponse (max)3.33sTemps de réponse (total)5.84s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.11sTemps de réponse (max)4.11sTemps de réponse (total)4.11s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5N'a pas suivi les instructions: 3Délai dépassé: 2invalid tool call: 1Temps de réponse (moy.)43.03sTemps de réponse (max)237.27sTemps de réponse (total)387.25s…
Tests totaux: 16Tests incorrects: 11Taux de réussite par tentative: 60.4%Tests instables: 9…Jetons de sortie: 107,044Jetons de raisonnement: 206,190Temps de réponse : moy. 43.03s · total 387.25s · max 237.27s
Mauvaise réponse: 5N'a pas suivi les instructions: 3Délai dépassé: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)32.42sTemps de réponse (max)32.42sTemps de réponse (total)32.42s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.invalid tool call: 1Temps de réponse (moy.)60.39sTemps de réponse (max)60.39sTemps de réponse (total)60.39s
Data parsing and extraction: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)7.48sTemps de réponse (max)7.48sTemps de réponse (total)7.48s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)237.27sTemps de réponse (max)237.27sTemps de réponse (total)237.27s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)6.63sTemps de réponse (max)6.63sTemps de réponse (total)6.63s
Instructions following: 8.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.64sTemps de réponse (max)4.64sTemps de réponse (total)4.64s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)11.54sTemps de réponse (max)17.37sTemps de réponse (total)23.08s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.35sTemps de réponse (max)15.35sTemps de réponse (total)15.35s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 2Aucune réponse: 1Délai dépassé: 1Temps de réponse (moy.)69.83sTemps de réponse (max)137.29sTemps de réponse (total)628.45s…
Tests totaux: 16Tests incorrects: 7Taux de réussite par tentative: 72.9%Tests instables: 5…Jetons de sortie: 38,453Jetons de raisonnement: 72,496Temps de réponse : moy. 69.83s · total 628.45s · max 137.29s
Mauvaise réponse: 3N'a pas suivi les instructions: 2Aucune réponse: 1Délai dépassé: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)85.28sTemps de réponse (max)85.28sTemps de réponse (total)85.28s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)71.37sTemps de réponse (max)71.37sTemps de réponse (total)71.37s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)49.78sTemps de réponse (max)49.78sTemps de réponse (total)49.78s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)137.29sTemps de réponse (max)137.29sTemps de réponse (total)137.29s
General Intelligence: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)69.73sTemps de réponse (max)69.73sTemps de réponse (total)69.73s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)92.47sTemps de réponse (max)92.47sTemps de réponse (total)92.47s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)45.40sTemps de réponse (max)82.75sTemps de réponse (total)90.79s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)31.74sTemps de réponse (max)31.74sTemps de réponse (total)31.74s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)7.15sTemps de réponse (max)11.96sTemps de réponse (total)64.34s…
Tests totaux: 16Tests incorrects: 3Taux de réussite par tentative: 81.3%Tests instables: 0…Jetons de sortie: 1,502Jetons de raisonnement: 9,706Temps de réponse : moy. 7.15s · total 64.34s · max 11.96s
Mauvaise réponse: 3
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.75sTemps de réponse (max)3.75sTemps de réponse (total)3.75s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.37sTemps de réponse (max)10.37sTemps de réponse (total)10.37s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.84sTemps de réponse (max)10.84sTemps de réponse (total)10.84s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)7.01sTemps de réponse (max)7.01sTemps de réponse (total)7.01s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.34sTemps de réponse (max)9.34sTemps de réponse (total)9.34s
Instructions following: 9.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.26sTemps de réponse (max)3.26sTemps de réponse (total)3.26s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.91sTemps de réponse (max)4.23sTemps de réponse (total)7.81s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.96sTemps de réponse (max)11.96sTemps de réponse (total)11.96s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 2Mauvaise réponse: 1Temps de réponse (moy.)34.45sTemps de réponse (max)79.86sTemps de réponse (total)310.09s…
Tests totaux: 16Tests incorrects: 3Taux de réussite par tentative: 85.4%Tests instables: 1…Jetons de sortie: 1,735Jetons de raisonnement: 77,212Temps de réponse : moy. 34.45s · total 310.09s · max 79.86s
Délai dépassé: 2Mauvaise réponse: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.37sTemps de réponse (max)10.37sTemps de réponse (total)10.37s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)46.85sTemps de réponse (max)46.85sTemps de réponse (total)46.85s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)46.91sTemps de réponse (max)46.91sTemps de réponse (total)46.91s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)17.50sTemps de réponse (max)17.50sTemps de réponse (total)17.50s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)79.86sTemps de réponse (max)79.86sTemps de réponse (total)79.86s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)31.93sTemps de réponse (max)31.93sTemps de réponse (total)31.93s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)34.57sTemps de réponse (max)49.12sTemps de réponse (total)69.13s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.54sTemps de réponse (max)7.54sTemps de réponse (total)7.54s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)12.36sTemps de réponse (max)50.16sTemps de réponse (total)111.21s…
Tests totaux: 16Tests incorrects: 0Taux de réussite par tentative: 100.0%Tests instables: 0…Jetons de sortie: 1,634Jetons de raisonnement: 47,907Temps de réponse : moy. 12.36s · total 111.21s · max 50.16s
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.61sTemps de réponse (max)5.61sTemps de réponse (total)5.61s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)50.16sTemps de réponse (max)50.16sTemps de réponse (total)50.16s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.72sTemps de réponse (max)4.72sTemps de réponse (total)4.72s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)21.12sTemps de réponse (max)21.12sTemps de réponse (total)21.12s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.09sTemps de réponse (max)4.09sTemps de réponse (total)4.09s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.10sTemps de réponse (max)6.10sTemps de réponse (total)6.10s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.43sTemps de réponse (max)4.68sTemps de réponse (total)8.85s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.55sTemps de réponse (max)10.55sTemps de réponse (total)10.55s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 4Mauvaise réponse: 3Délai dépassé: 1Temps de réponse (moy.)25.14sTemps de réponse (max)88.15sTemps de réponse (total)402.29s…
Tests totaux: 16Tests incorrects: 8Taux de réussite par tentative: 58.3%Tests instables: 2…Jetons de sortie: 5,826Jetons de raisonnement: 48,768Temps de réponse : moy. 25.14s · total 402.29s · max 88.15s
N'a pas suivi les instructions: 4Mauvaise réponse: 3Délai dépassé: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)16.45sTemps de réponse (max)26.00sTemps de réponse (total)49.36s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)88.15sTemps de réponse (max)88.15sTemps de réponse (total)88.15s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)12.58sTemps de réponse (max)13.87sTemps de réponse (total)25.16s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)44.63sTemps de réponse (max)82.55sTemps de réponse (total)133.89s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)13.50sTemps de réponse (max)13.50sTemps de réponse (total)13.50s
Instructions following: 7.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)15.66sTemps de réponse (max)21.80sTemps de réponse (total)31.32s
Puzzle Solving: 4.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)14.09sTemps de réponse (max)16.81sTemps de réponse (total)42.28s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)18.64sTemps de réponse (max)18.64sTemps de réponse (total)18.64s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Aucune réponse: 1Délai dépassé: 1Temps de réponse (moy.)16.16sTemps de réponse (max)28.96sTemps de réponse (total)129.26s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 83.3%Tests instables: 4…Jetons de sortie: 19,773Jetons de raisonnement: 36,459Temps de réponse : moy. 16.16s · total 129.26s · max 28.96s
Mauvaise réponse: 2N'a pas suivi les instructions: 1Aucune réponse: 1Délai dépassé: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)22.26sTemps de réponse (max)22.26sTemps de réponse (total)22.26s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)28.96sTemps de réponse (max)28.96sTemps de réponse (total)28.96s
Data parsing and extraction: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)8.90sTemps de réponse (max)8.90sTemps de réponse (total)8.90s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Délai dépassé: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)14.69sTemps de réponse (max)14.69sTemps de réponse (total)14.69s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.25sTemps de réponse (max)7.25sTemps de réponse (total)7.25s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.64sTemps de réponse (max)16.34sTemps de réponse (total)31.27s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.93sTemps de réponse (max)15.93sTemps de réponse (total)15.93s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 1Temps de réponse (moy.)1.48sTemps de réponse (max)2.89sTemps de réponse (total)23.64s…
Tests totaux: 16Tests incorrects: 10Taux de réussite par tentative: 41.7%Tests instables: 2…Jetons de sortie: 1,819Jetons de raisonnement: 0Temps de réponse : moy. 1.48s · total 23.64s · max 2.89s
Mauvaise réponse: 9N'a pas suivi les instructions: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.41sTemps de réponse (max)2.58sTemps de réponse (total)4.23s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.89sTemps de réponse (max)2.89sTemps de réponse (total)2.89s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.04sTemps de réponse (max)1.06sTemps de réponse (total)2.08s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.07sTemps de réponse (max)1.54sTemps de réponse (total)3.22s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.78sTemps de réponse (max)1.78sTemps de réponse (total)1.78s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.07sTemps de réponse (max)1.17sTemps de réponse (total)2.15s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.52sTemps de réponse (max)1.82sTemps de réponse (total)4.56s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.75sTemps de réponse (max)2.75sTemps de réponse (total)2.75s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)6.11sTemps de réponse (max)14.72sTemps de réponse (total)97.74s…
Tests totaux: 16Tests incorrects: 3Taux de réussite par tentative: 83.3%Tests instables: 1…Jetons de sortie: 1,586Jetons de raisonnement: 19,950Temps de réponse : moy. 6.11s · total 97.74s · max 14.72s
Mauvaise réponse: 3
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.50sTemps de réponse (max)4.31sTemps de réponse (total)10.49s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.27sTemps de réponse (max)3.27sTemps de réponse (total)3.27s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.40sTemps de réponse (max)14.72sTemps de réponse (total)18.80s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)8.05sTemps de réponse (max)14.40sTemps de réponse (total)24.15s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.68sTemps de réponse (max)3.68sTemps de réponse (total)3.68s
Instructions following: 9.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.02sTemps de réponse (max)7.35sTemps de réponse (total)14.03s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.11sTemps de réponse (max)10.27sTemps de réponse (total)18.32s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.99sTemps de réponse (max)4.99sTemps de réponse (total)4.99s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 3Erreur API: 1N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)70.81sTemps de réponse (max)234.29sTemps de réponse (total)1132.90s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 81.3%Tests instables: 5…Jetons de sortie: 1,807Jetons de raisonnement: 169,952Temps de réponse : moy. 70.81s · total 1132.90s · max 234.29s
Délai dépassé: 3Erreur API: 1N'a pas suivi les instructions: 1Mauvaise réponse: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)71.35sTemps de réponse (max)168.31sTemps de réponse (total)214.06s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.78sTemps de réponse (max)17.78sTemps de réponse (total)17.78s
Data parsing and extraction: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)56.99sTemps de réponse (max)80.14sTemps de réponse (total)113.98s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)146.50sTemps de réponse (max)234.29sTemps de réponse (total)439.49s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)40.05sTemps de réponse (max)40.05sTemps de réponse (total)40.05s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)63.49sTemps de réponse (max)111.61sTemps de réponse (total)126.98s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 2Temps de réponse (moy.)56.74sTemps de réponse (max)115.01sTemps de réponse (total)170.23s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)10.33sTemps de réponse (max)10.33sTemps de réponse (total)10.33s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5N'a pas suivi les instructions: 3Délai dépassé: 1Temps de réponse (moy.)47.94sTemps de réponse (max)204.02sTemps de réponse (total)431.47s…
Tests totaux: 16Tests incorrects: 9Taux de réussite par tentative: 60.4%Tests instables: 6…Jetons de sortie: 4,386Jetons de raisonnement: 142,080Temps de réponse : moy. 47.94s · total 431.47s · max 204.02s
Mauvaise réponse: 5N'a pas suivi les instructions: 3Délai dépassé: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)37.73sTemps de réponse (max)37.73sTemps de réponse (total)37.73s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)65.96sTemps de réponse (max)65.96sTemps de réponse (total)65.96s
Data parsing and extraction: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)21.42sTemps de réponse (max)21.42sTemps de réponse (total)21.42s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)204.02sTemps de réponse (max)204.02sTemps de réponse (total)204.02s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)17.51sTemps de réponse (max)17.51sTemps de réponse (total)17.51s
Instructions following: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)11.90sTemps de réponse (max)11.90sTemps de réponse (total)11.90s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)19.81sTemps de réponse (max)21.31sTemps de réponse (total)39.63s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)33.30sTemps de réponse (max)33.30sTemps de réponse (total)33.30s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 3Mauvaise réponse: 2Aucune réponse: 1Délai dépassé: 1Temps de réponse (moy.)26.35sTemps de réponse (max)121.79sTemps de réponse (total)237.11s…
Tests totaux: 16Tests incorrects: 7Taux de réussite par tentative: 66.7%Tests instables: 4…Jetons de sortie: 1,183Jetons de raisonnement: 83,875Temps de réponse : moy. 26.35s · total 237.11s · max 121.79s
N'a pas suivi les instructions: 3Mauvaise réponse: 2Aucune réponse: 1Délai dépassé: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.65sTemps de réponse (max)5.65sTemps de réponse (total)5.65s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)37.64sTemps de réponse (max)37.64sTemps de réponse (total)37.64s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.63sTemps de réponse (max)6.63sTemps de réponse (total)6.63s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)121.79sTemps de réponse (max)121.79sTemps de réponse (total)121.79s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)16.25sTemps de réponse (max)16.25sTemps de réponse (total)16.25s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.30sTemps de réponse (max)5.30sTemps de réponse (total)5.30s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)8.08sTemps de réponse (max)8.38sTemps de réponse (total)16.17s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)27.71sTemps de réponse (max)27.71sTemps de réponse (total)27.71s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 1Temps de réponse (moy.)3.83sTemps de réponse (max)14.93sTemps de réponse (total)61.25s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 68.8%Tests instables: 0…Jetons de sortie: 1,731Jetons de raisonnement: 25,821Temps de réponse : moy. 3.83s · total 61.25s · max 14.93s
Mauvaise réponse: 4N'a pas suivi les instructions: 1
Anti-AI Tricks: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.53sTemps de réponse (max)3.89sTemps de réponse (total)7.58s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)14.93sTemps de réponse (max)14.93sTemps de réponse (total)14.93s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.29sTemps de réponse (max)2.31sTemps de réponse (total)4.59s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)4.21sTemps de réponse (max)5.86sTemps de réponse (total)12.62s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.16sTemps de réponse (max)3.16sTemps de réponse (total)3.16s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.91sTemps de réponse (max)1.93sTemps de réponse (total)3.82s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.58sTemps de réponse (max)4.41sTemps de réponse (total)10.75s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.80sTemps de réponse (max)3.80sTemps de réponse (total)3.80s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5N'a pas suivi les instructions: 4Temps de réponse (moy.)2.36sTemps de réponse (max)14.63sTemps de réponse (total)35.39s…
Tests totaux: 16Tests incorrects: 9Taux de réussite par tentative: 54.2%Tests instables: 3…Jetons de sortie: 3,708Jetons de raisonnement: 45,921Temps de réponse : moy. 2.36s · total 35.39s · max 14.63s
Mauvaise réponse: 5N'a pas suivi les instructions: 4
Anti-AI Tricks: 7.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.30sTemps de réponse (max)2.46sTemps de réponse (total)3.89s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.28sTemps de réponse (max)3.28sTemps de réponse (total)3.28s
Data parsing and extraction: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.11sTemps de réponse (max)1.47sTemps de réponse (total)2.21s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)6.48sTemps de réponse (max)14.63sTemps de réponse (total)19.43s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)821msTemps de réponse (max)821msTemps de réponse (total)821ms
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.07sTemps de réponse (max)1.07sTemps de réponse (total)1.07s
Puzzle Solving: 1.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 1Temps de réponse (moy.)934msTemps de réponse (max)1.18sTemps de réponse (total)2.80s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.89sTemps de réponse (max)1.89sTemps de réponse (total)1.89s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 7N'a pas suivi les instructions: 2Aucune réponse: 2invalid tool call: 1Temps de réponse (moy.)36.84sTemps de réponse (max)174.55sTemps de réponse (total)331.58s…
Tests totaux: 16Tests incorrects: 12Taux de réussite par tentative: 41.7%Tests instables: 7…Jetons de sortie: 38,682Jetons de raisonnement: 64,952Temps de réponse : moy. 36.84s · total 331.58s · max 174.55s
Mauvaise réponse: 7N'a pas suivi les instructions: 2Aucune réponse: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)27.09sTemps de réponse (max)27.09sTemps de réponse (total)27.09s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.invalid tool call: 1Temps de réponse (moy.)65.57sTemps de réponse (max)65.57sTemps de réponse (total)65.57s
Data parsing and extraction: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)1.51sTemps de réponse (max)1.51sTemps de réponse (total)1.51s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Aucune réponse: 1Temps de réponse (moy.)174.55sTemps de réponse (max)174.55sTemps de réponse (total)174.55s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)18.14sTemps de réponse (max)18.14sTemps de réponse (total)18.14s
Instructions following: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.97sTemps de réponse (max)2.97sTemps de réponse (total)2.97s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)12.90sTemps de réponse (max)22.33sTemps de réponse (total)25.80s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.95sTemps de réponse (max)15.95sTemps de réponse (total)15.95s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Erreur API: 1N'a pas suivi les instructions: 1Temps de réponse (moy.)25.33sTemps de réponse (max)96.01sTemps de réponse (total)253.33s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 72.9%Tests instables: 1…Jetons de sortie: 11,613Jetons de raisonnement: 106,714Temps de réponse : moy. 25.33s · total 253.33s · max 96.01s
Mauvaise réponse: 3Erreur API: 1N'a pas suivi les instructions: 1
Anti-AI Tricks: 9.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)16.79sTemps de réponse (max)20.83sTemps de réponse (total)33.57s
Combined: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)75.68sTemps de réponse (max)75.68sTemps de réponse (total)75.68s
Data parsing and extraction: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)96.01sTemps de réponse (max)96.01sTemps de réponse (total)96.01s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.20sTemps de réponse (max)4.20sTemps de réponse (total)4.20s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.28sTemps de réponse (max)7.37sTemps de réponse (total)8.55s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.77sTemps de réponse (max)5.26sTemps de réponse (total)7.55s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)27.78sTemps de réponse (max)27.78sTemps de réponse (total)27.78s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 4N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)65.09sTemps de réponse (max)262.83sTemps de réponse (total)846.14s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 68.8%Tests instables: 2…Jetons de sortie: 1,965Jetons de raisonnement: 58,456Temps de réponse : moy. 65.09s · total 846.14s · max 262.83s
Délai dépassé: 4N'a pas suivi les instructions: 1Mauvaise réponse: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)98.99sTemps de réponse (max)182.10sTemps de réponse (total)296.96s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)262.83sTemps de réponse (max)262.83sTemps de réponse (total)262.83s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)24.27sTemps de réponse (max)27.52sTemps de réponse (total)48.54s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 3Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
General Intelligence: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)36.65sTemps de réponse (max)36.65sTemps de réponse (total)36.65s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)17.47sTemps de réponse (max)19.46sTemps de réponse (total)34.93s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)25.85sTemps de réponse (max)32.95sTemps de réponse (total)77.55s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)88.68sTemps de réponse (max)88.68sTemps de réponse (total)88.68s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3N'a pas suivi les instructions: 1Délai dépassé: 1Temps de réponse (moy.)39.48sTemps de réponse (max)93.11sTemps de réponse (total)631.71s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 79.2%Tests instables: 3…Jetons de sortie: 7,392Jetons de raisonnement: 39,089Temps de réponse : moy. 39.48s · total 631.71s · max 93.11s
Mauvaise réponse: 3N'a pas suivi les instructions: 1Délai dépassé: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)33.39sTemps de réponse (max)44.23sTemps de réponse (total)100.18s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)93.11sTemps de réponse (max)93.11sTemps de réponse (total)93.11s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)36.09sTemps de réponse (max)39.12sTemps de réponse (total)72.18s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Mauvaise réponse: 1Temps de réponse (moy.)39.32sTemps de réponse (max)79.03sTemps de réponse (total)117.95s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)31.30sTemps de réponse (max)31.30sTemps de réponse (total)31.30s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)35.78sTemps de réponse (max)47.30sTemps de réponse (total)71.56s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)36.87sTemps de réponse (max)59.22sTemps de réponse (total)110.62s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)34.81sTemps de réponse (max)34.81sTemps de réponse (total)34.81s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 10Erreur API: 1Mise en forme supplémentaire: 1N'a pas suivi les instructions: 1Temps de réponse (moy.)2.97sTemps de réponse (max)19.68sTemps de réponse (total)35.60s…
Tests totaux: 16Tests incorrects: 13Taux de réussite par tentative: 29.2%Tests instables: 4…Jetons de sortie: 67,790Jetons de raisonnement: 0Temps de réponse : moy. 2.97s · total 35.60s · max 19.68s
Mauvaise réponse: 10Erreur API: 1Mise en forme supplémentaire: 1N'a pas suivi les instructions: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.36sTemps de réponse (max)2.73sTemps de réponse (total)4.07s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.87sTemps de réponse (max)2.87sTemps de réponse (total)2.87s
Data parsing and extraction: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mise en forme supplémentaire: 1Temps de réponse (moy.)19.68sTemps de réponse (max)19.68sTemps de réponse (total)19.68s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)564msTemps de réponse (max)564msTemps de réponse (total)564ms
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.67sTemps de réponse (max)1.67sTemps de réponse (total)1.67s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)857msTemps de réponse (max)955msTemps de réponse (total)1.71s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.38sTemps de réponse (max)1.74sTemps de réponse (total)2.75s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.28sTemps de réponse (max)2.28sTemps de réponse (total)2.28s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 1Temps de réponse (moy.)3.72sTemps de réponse (max)46.00sTemps de réponse (total)59.46s…
Tests totaux: 16Tests incorrects: 10Taux de réussite par tentative: 39.6%Tests instables: 1…Jetons de sortie: 2,679Jetons de raisonnement: 0Temps de réponse : moy. 3.72s · total 59.46s · max 46.00s
Mauvaise réponse: 9N'a pas suivi les instructions: 1
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)927msTemps de réponse (max)1.38sTemps de réponse (total)2.78s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)46.00sTemps de réponse (max)46.00sTemps de réponse (total)46.00s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.01sTemps de réponse (max)1.06sTemps de réponse (total)2.02s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)465msTemps de réponse (max)492msTemps de réponse (total)1.39s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.12sTemps de réponse (max)1.12sTemps de réponse (total)1.12s
Instructions following: 4.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)585msTemps de réponse (max)715msTemps de réponse (total)1.17s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)982msTemps de réponse (max)1.36sTemps de réponse (total)2.95s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.04sTemps de réponse (max)2.04sTemps de réponse (total)2.04s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 1Temps de réponse (moy.)3.36sTemps de réponse (max)11.91sTemps de réponse (total)53.84s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 68.8%Tests instables: 0…Jetons de sortie: 1,611Jetons de raisonnement: 7,272Temps de réponse : moy. 3.36s · total 53.84s · max 11.91s
Mauvaise réponse: 4N'a pas suivi les instructions: 1
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.18sTemps de réponse (max)3.18sTemps de réponse (total)6.53s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)11.91sTemps de réponse (max)11.91sTemps de réponse (total)11.91s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.00sTemps de réponse (max)3.74sTemps de réponse (total)5.99s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)2.36sTemps de réponse (max)3.51sTemps de réponse (total)7.07s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.54sTemps de réponse (max)1.54sTemps de réponse (total)1.54s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.49sTemps de réponse (max)1.66sTemps de réponse (total)2.99s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.76sTemps de réponse (max)5.08sTemps de réponse (total)8.27s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)9.54sTemps de réponse (max)9.54sTemps de réponse (total)9.54s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5Temps de réponse (moy.)1.75sTemps de réponse (max)3.56sTemps de réponse (total)15.71s…
Tests totaux: 16Tests incorrects: 5Taux de réussite par tentative: 75.0%Tests instables: 2…Jetons de sortie: 1,411Jetons de raisonnement: 0Temps de réponse : moy. 1.75s · total 15.71s · max 3.56s
Mauvaise réponse: 5
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.59sTemps de réponse (max)1.59sTemps de réponse (total)1.59s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.56sTemps de réponse (max)3.56sTemps de réponse (total)3.56s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.41sTemps de réponse (max)1.41sTemps de réponse (total)1.41s
Domain specific: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)963msTemps de réponse (max)963msTemps de réponse (total)963ms
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.13sTemps de réponse (max)1.13sTemps de réponse (total)1.13s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.58sTemps de réponse (max)1.58sTemps de réponse (total)1.58s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.06sTemps de réponse (max)1.06sTemps de réponse (total)2.12s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.35sTemps de réponse (max)3.35sTemps de réponse (total)3.35s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 7Temps de réponse (moy.)4.03sTemps de réponse (max)11.07sTemps de réponse (total)36.30s…
Tests totaux: 16Tests incorrects: 7Taux de réussite par tentative: 56.3%Tests instables: 0…Jetons de sortie: 1,548Jetons de raisonnement: 0Temps de réponse : moy. 4.03s · total 36.30s · max 11.07s
Mauvaise réponse: 7
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)3.39sTemps de réponse (max)3.39sTemps de réponse (total)3.39s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.98sTemps de réponse (max)4.98sTemps de réponse (total)4.98s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)5.78sTemps de réponse (max)5.78sTemps de réponse (total)5.78s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)2.24sTemps de réponse (max)2.24sTemps de réponse (total)2.24s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.27sTemps de réponse (max)3.27sTemps de réponse (total)3.27s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.48sTemps de réponse (max)1.48sTemps de réponse (total)1.48s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.05sTemps de réponse (max)2.08sTemps de réponse (total)4.10s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.07sTemps de réponse (max)11.07sTemps de réponse (total)11.07s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 7Temps de réponse (moy.)2.65sTemps de réponse (max)6.65sTemps de réponse (total)26.52s…
Tests totaux: 16Tests incorrects: 7Taux de réussite par tentative: 58.3%Tests instables: 1…Jetons de sortie: 2,015Jetons de raisonnement: 0Temps de réponse : moy. 2.65s · total 26.52s · max 6.65s
Mauvaise réponse: 7
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)2.74sTemps de réponse (max)2.74sTemps de réponse (total)2.74s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.65sTemps de réponse (max)6.65sTemps de réponse (total)6.65s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.89sTemps de réponse (max)1.89sTemps de réponse (total)1.89s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.17sTemps de réponse (max)1.44sTemps de réponse (total)2.33s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.26sTemps de réponse (max)2.26sTemps de réponse (total)2.26s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.67sTemps de réponse (max)1.67sTemps de réponse (total)1.67s
Puzzle Solving: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.82sTemps de réponse (max)3.52sTemps de réponse (total)5.65s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.33sTemps de réponse (max)3.33sTemps de réponse (total)3.33s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 6Mise en forme supplémentaire: 2invalid tool call: 1Temps de réponse (moy.)12.86sTemps de réponse (max)115.89sTemps de réponse (total)205.78s…
Tests totaux: 16Tests incorrects: 9Taux de réussite par tentative: 54.2%Tests instables: 3…Jetons de sortie: 7,823Jetons de raisonnement: 0Temps de réponse : moy. 12.86s · total 205.78s · max 115.89s
Mauvaise réponse: 6Mise en forme supplémentaire: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 2Mauvaise réponse: 1Temps de réponse (moy.)8.79sTemps de réponse (max)12.26sTemps de réponse (total)26.38s
Combined: 8.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.invalid tool call: 1Temps de réponse (moy.)115.89sTemps de réponse (max)115.89sTemps de réponse (total)115.89s
Data parsing and extraction: 5.4Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)9.42sTemps de réponse (max)16.20sTemps de réponse (total)18.84s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.61sTemps de réponse (max)1.77sTemps de réponse (total)4.83s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.86sTemps de réponse (max)2.86sTemps de réponse (total)2.86s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.52sTemps de réponse (max)1.99sTemps de réponse (total)3.04s
Puzzle Solving: 7.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)7.37sTemps de réponse (max)10.78sTemps de réponse (total)22.10s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.85sTemps de réponse (max)11.85sTemps de réponse (total)11.85s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 2Temps de réponse (moy.)1.75sTemps de réponse (max)9.39sTemps de réponse (total)28.05s…
Tests totaux: 16Tests incorrects: 11Taux de réussite par tentative: 37.5%Tests instables: 2…Jetons de sortie: 3,161Jetons de raisonnement: 0Temps de réponse : moy. 1.75s · total 28.05s · max 9.39s
Mauvaise réponse: 9N'a pas suivi les instructions: 2
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)796msTemps de réponse (max)1.34sTemps de réponse (total)2.39s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)9.39sTemps de réponse (max)9.39sTemps de réponse (total)9.39s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.43sTemps de réponse (max)1.45sTemps de réponse (total)2.86s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)540msTemps de réponse (max)649msTemps de réponse (total)1.62s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.51sTemps de réponse (max)2.51sTemps de réponse (total)2.51s
Instructions following: 4.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)815msTemps de réponse (max)973msTemps de réponse (total)1.63s
Puzzle Solving: 6.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.37sTemps de réponse (max)2.23sTemps de réponse (total)4.12s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.54sTemps de réponse (max)3.54sTemps de réponse (total)3.54s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11Temps de réponse (moy.)11.91sTemps de réponse (max)42.13sTemps de réponse (total)107.16s…
Tests totaux: 16Tests incorrects: 11Taux de réussite par tentative: 39.6%Tests instables: 3…Jetons de sortie: 2,000Jetons de raisonnement: 0Temps de réponse : moy. 11.91s · total 107.16s · max 42.13s
Mauvaise réponse: 11
Anti-AI Tricks: 2.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)11.38sTemps de réponse (max)11.38sTemps de réponse (total)11.38s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)19.16sTemps de réponse (max)19.16sTemps de réponse (total)19.16s
Data parsing and extraction: 5.4Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)42.13sTemps de réponse (max)42.13sTemps de réponse (total)42.13s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)4.38sTemps de réponse (max)4.38sTemps de réponse (total)4.38s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.00sTemps de réponse (max)4.00sTemps de réponse (total)4.00s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.67sTemps de réponse (max)2.67sTemps de réponse (total)2.67s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)4.73sTemps de réponse (max)7.81sTemps de réponse (total)9.45s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)13.99sTemps de réponse (max)13.99sTemps de réponse (total)13.99s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4N'a pas suivi les instructions: 2Temps de réponse (moy.)1.33sTemps de réponse (max)3.39sTemps de réponse (total)21.27s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 66.7%Tests instables: 1…Jetons de sortie: 4,715Jetons de raisonnement: 0Temps de réponse : moy. 1.33s · total 21.27s · max 3.39s
Mauvaise réponse: 4N'a pas suivi les instructions: 2
Anti-AI Tricks: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.16sTemps de réponse (max)1.47sTemps de réponse (total)3.49s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.20sTemps de réponse (max)3.20sTemps de réponse (total)3.20s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.22sTemps de réponse (max)1.33sTemps de réponse (total)2.44s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)942msTemps de réponse (max)1.12sTemps de réponse (total)2.83s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)741msTemps de réponse (max)741msTemps de réponse (total)741ms
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.13sTemps de réponse (max)1.14sTemps de réponse (total)2.27s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)972msTemps de réponse (max)1.13sTemps de réponse (total)2.92s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.39sTemps de réponse (max)3.39sTemps de réponse (total)3.39s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 8N'a pas suivi les instructions: 2Temps de réponse (moy.)4.10sTemps de réponse (max)47.43sTemps de réponse (total)65.62s…
Tests totaux: 16Tests incorrects: 10Taux de réussite par tentative: 50.0%Tests instables: 3…Jetons de sortie: 3,756Jetons de raisonnement: 0Temps de réponse : moy. 4.10s · total 65.62s · max 47.43s
Mauvaise réponse: 8N'a pas suivi les instructions: 2
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.76sTemps de réponse (max)4.39sTemps de réponse (total)5.27s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)47.43sTemps de réponse (max)47.43sTemps de réponse (total)47.43s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.16sTemps de réponse (max)1.42sTemps de réponse (total)2.33s
Domain specific: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)485msTemps de réponse (max)549msTemps de réponse (total)1.45s
General Intelligence: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.19sTemps de réponse (max)1.19sTemps de réponse (total)1.19s
Instructions following: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)809msTemps de réponse (max)983msTemps de réponse (total)1.62s
Puzzle Solving: 1.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)1.34sTemps de réponse (max)2.25sTemps de réponse (total)4.03s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.30sTemps de réponse (max)2.30sTemps de réponse (total)2.30s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 1Temps de réponse (moy.)923msTemps de réponse (max)4.39sTemps de réponse (total)14.78s…
Tests totaux: 16Tests incorrects: 10Taux de réussite par tentative: 43.8%Tests instables: 2…Jetons de sortie: 1,270Jetons de raisonnement: 0Temps de réponse : moy. 923ms · total 14.78s · max 4.39s
Mauvaise réponse: 9N'a pas suivi les instructions: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)668msTemps de réponse (max)844msTemps de réponse (total)2.01s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.39sTemps de réponse (max)4.39sTemps de réponse (total)4.39s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)652msTemps de réponse (max)660msTemps de réponse (total)1.30s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)495msTemps de réponse (max)642msTemps de réponse (total)1.49s
General Intelligence: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)615msTemps de réponse (max)615msTemps de réponse (total)615ms
Instructions following: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)672msTemps de réponse (max)785msTemps de réponse (total)1.34s
Puzzle Solving: 4.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)576msTemps de réponse (max)700msTemps de réponse (total)1.73s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.91sTemps de réponse (max)1.91sTemps de réponse (total)1.91s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 5N'a pas suivi les instructions: 4Temps de réponse (moy.)16.65sTemps de réponse (max)50.92sTemps de réponse (total)149.88s…
Tests totaux: 16Tests incorrects: 9Taux de réussite par tentative: 54.2%Tests instables: 5…Jetons de sortie: 13,210Jetons de raisonnement: 34,230Temps de réponse : moy. 16.65s · total 149.88s · max 50.92s
Mauvaise réponse: 5N'a pas suivi les instructions: 4
Anti-AI Tricks: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)19.76sTemps de réponse (max)19.76sTemps de réponse (total)19.76s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)31.18sTemps de réponse (max)31.18sTemps de réponse (total)31.18s
Data parsing and extraction: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.98sTemps de réponse (max)1.98sTemps de réponse (total)1.98s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)50.92sTemps de réponse (max)50.92sTemps de réponse (total)50.92s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)7.90sTemps de réponse (max)7.90sTemps de réponse (total)7.90s
Instructions following: 9.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.63sTemps de réponse (max)7.63sTemps de réponse (total)7.63s
Puzzle Solving: 1.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 1Temps de réponse (moy.)11.80sTemps de réponse (max)12.60sTemps de réponse (total)23.61s
Tool Calling: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.91sTemps de réponse (max)6.91sTemps de réponse (total)6.91s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11N'a pas suivi les instructions: 2Temps de réponse (moy.)1.90sTemps de réponse (max)5.51sTemps de réponse (total)17.14s…
Tests totaux: 16Tests incorrects: 13Taux de réussite par tentative: 25.0%Tests instables: 2…Jetons de sortie: 1,148Jetons de raisonnement: 0Temps de réponse : moy. 1.90s · total 17.14s · max 5.51s
Mauvaise réponse: 11N'a pas suivi les instructions: 2
Anti-AI Tricks: 1.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)1.73sTemps de réponse (max)1.73sTemps de réponse (total)1.73s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.33sTemps de réponse (max)3.33sTemps de réponse (total)3.33s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)943msTemps de réponse (max)943msTemps de réponse (total)943ms
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.06sTemps de réponse (max)1.06sTemps de réponse (total)1.06s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.08sTemps de réponse (max)1.08sTemps de réponse (total)1.08s
Instructions following: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)923msTemps de réponse (max)923msTemps de réponse (total)923ms
Puzzle Solving: 1.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.28sTemps de réponse (max)1.36sTemps de réponse (total)2.56s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.51sTemps de réponse (max)5.51sTemps de réponse (total)5.51s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 10Mise en forme supplémentaire: 1N'a pas suivi les instructions: 1Temps de réponse (moy.)11.68sTemps de réponse (max)45.14sTemps de réponse (total)116.76s…
Tests totaux: 16Tests incorrects: 12Taux de réussite par tentative: 25.0%Tests instables: 0…Jetons de sortie: 3,026Jetons de raisonnement: 0Temps de réponse : moy. 11.68s · total 116.76s · max 45.14s
Mauvaise réponse: 10Mise en forme supplémentaire: 1N'a pas suivi les instructions: 1
Anti-AI Tricks: 2.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)4.39sTemps de réponse (max)4.39sTemps de réponse (total)4.39s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)45.14sTemps de réponse (max)45.14sTemps de réponse (total)45.14s
Data parsing and extraction: 5.4Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.32sTemps de réponse (max)1.32sTemps de réponse (total)1.32s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)962msTemps de réponse (max)962msTemps de réponse (total)962ms
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.34sTemps de réponse (max)1.34sTemps de réponse (total)1.34s
Instructions following: 4.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)7.71sTemps de réponse (max)14.65sTemps de réponse (total)15.42s
Puzzle Solving: 1.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)22.86sTemps de réponse (max)42.58sTemps de réponse (total)45.73s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.47sTemps de réponse (max)2.47sTemps de réponse (total)2.47s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 8N'a pas suivi les instructions: 5Temps de réponse (moy.)12.53sTemps de réponse (max)81.80sTemps de réponse (total)125.32s…
Tests totaux: 16Tests incorrects: 13Taux de réussite par tentative: 27.1%Tests instables: 2…Jetons de sortie: 2,935Jetons de raisonnement: 0Temps de réponse : moy. 12.53s · total 125.32s · max 81.80s
Mauvaise réponse: 8N'a pas suivi les instructions: 5
Anti-AI Tricks: 1.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)15.28sTemps de réponse (max)15.28sTemps de réponse (total)15.28s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.28sTemps de réponse (max)4.28sTemps de réponse (total)4.28s
Data parsing and extraction: 5.4Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)81.80sTemps de réponse (max)81.80sTemps de réponse (total)81.80s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)638msTemps de réponse (max)638msTemps de réponse (total)638ms
General Intelligence: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.39sTemps de réponse (max)1.39sTemps de réponse (total)1.39s
Instructions following: 4.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)7.34sTemps de réponse (max)13.67sTemps de réponse (total)14.68s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 1Temps de réponse (moy.)2.30sTemps de réponse (max)3.80sTemps de réponse (total)4.61s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.64sTemps de réponse (max)2.64sTemps de réponse (total)2.64s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11N'a pas suivi les instructions: 1Temps de réponse (moy.)596msTemps de réponse (max)1.27sTemps de réponse (total)9.54s…
Tests totaux: 16Tests incorrects: 12Taux de réussite par tentative: 31.3%Tests instables: 2…Jetons de sortie: 1,303Jetons de raisonnement: 0Temps de réponse : moy. 596ms · total 9.54s · max 1.27s
Mauvaise réponse: 11N'a pas suivi les instructions: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)466msTemps de réponse (max)716msTemps de réponse (total)1.40s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)606msTemps de réponse (max)606msTemps de réponse (total)606ms
Data parsing and extraction: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)667msTemps de réponse (max)819msTemps de réponse (total)1.33s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)534msTemps de réponse (max)733msTemps de réponse (total)1.60s
General Intelligence: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)628msTemps de réponse (max)628msTemps de réponse (total)628ms
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)551msTemps de réponse (max)622msTemps de réponse (total)1.10s
Puzzle Solving: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)533msTemps de réponse (max)637msTemps de réponse (total)1.60s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 8N'a pas suivi les instructions: 1Temps de réponse (moy.)3.54sTemps de réponse (max)13.73sTemps de réponse (total)56.70s…
Tests totaux: 16Tests incorrects: 9Taux de réussite par tentative: 45.8%Tests instables: 1…Jetons de sortie: 3,774Jetons de raisonnement: 0Temps de réponse : moy. 3.54s · total 56.70s · max 13.73s
Mauvaise réponse: 8N'a pas suivi les instructions: 1
Anti-AI Tricks: 2.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.62sTemps de réponse (max)3.89sTemps de réponse (total)4.85s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)6.22sTemps de réponse (max)6.22sTemps de réponse (total)6.22s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.57sTemps de réponse (max)1.83sTemps de réponse (total)3.14s
Domain specific: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)905msTemps de réponse (max)1.10sTemps de réponse (total)2.71s
General Intelligence: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)803msTemps de réponse (max)803msTemps de réponse (total)803ms
Instructions following: 5.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)8.81sTemps de réponse (max)13.73sTemps de réponse (total)17.61s
Puzzle Solving: 1.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2N'a pas suivi les instructions: 1Temps de réponse (moy.)5.90sTemps de réponse (max)12.19sTemps de réponse (total)17.69s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.67sTemps de réponse (max)3.67sTemps de réponse (total)3.67s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11N'a pas suivi les instructions: 1Temps de réponse (moy.)2.07sTemps de réponse (max)7.58sTemps de réponse (total)18.60s…
Tests totaux: 16Tests incorrects: 12Taux de réussite par tentative: 25.0%Tests instables: 0…Jetons de sortie: 1,594Jetons de raisonnement: 0Temps de réponse : moy. 2.07s · total 18.60s · max 7.58s
Mauvaise réponse: 11N'a pas suivi les instructions: 1
Anti-AI Tricks: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.83sTemps de réponse (max)1.83sTemps de réponse (total)1.83s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)7.58sTemps de réponse (max)7.58sTemps de réponse (total)7.58s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27s
Domain specific: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)637msTemps de réponse (max)637msTemps de réponse (total)637ms
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)909msTemps de réponse (max)909msTemps de réponse (total)909ms
Instructions following: 4.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27s
Puzzle Solving: 2.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.30sTemps de réponse (max)1.54sTemps de réponse (total)2.60s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.51sTemps de réponse (max)2.51sTemps de réponse (total)2.51s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 2invalid tool call: 1Temps de réponse (moy.)2.99sTemps de réponse (max)7.05sTemps de réponse (total)26.90s…
Tests totaux: 16Tests incorrects: 12Taux de réussite par tentative: 35.4%Tests instables: 3…Jetons de sortie: 1,855Jetons de raisonnement: 0Temps de réponse : moy. 2.99s · total 26.90s · max 7.05s
Mauvaise réponse: 9N'a pas suivi les instructions: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)6.59sTemps de réponse (max)6.59sTemps de réponse (total)6.59s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.invalid tool call: 1Temps de réponse (moy.)3.22sTemps de réponse (max)3.22sTemps de réponse (total)3.22s
Data parsing and extraction: 5.4Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.82sTemps de réponse (max)4.82sTemps de réponse (total)4.82s
Domain specific: 7.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)744msTemps de réponse (max)744msTemps de réponse (total)744ms
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.59sTemps de réponse (max)1.59sTemps de réponse (total)1.59s
Instructions following: 5.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)888msTemps de réponse (max)888msTemps de réponse (total)888ms
Puzzle Solving: 3.7Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 2Mauvaise réponse: 1Temps de réponse (moy.)1.00sTemps de réponse (max)1.12sTemps de réponse (total)2.00s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)7.05sTemps de réponse (max)7.05sTemps de réponse (total)7.05s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9Erreur API: 4N'a pas suivi les instructions: 2Temps de réponse (moy.)811msTemps de réponse (max)2.88sTemps de réponse (total)11.35s…
Tests totaux: 16Tests incorrects: 15Taux de réussite par tentative: 14.6%Tests instables: 2…Jetons de sortie: 1,185Jetons de raisonnement: 0Temps de réponse : moy. 811ms · total 11.35s · max 2.88s
Mauvaise réponse: 9Erreur API: 4N'a pas suivi les instructions: 2
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)471msTemps de réponse (max)872msTemps de réponse (total)1.41s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Data parsing and extraction: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)714msTemps de réponse (max)987msTemps de réponse (total)1.43s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)287msTemps de réponse (max)334msTemps de réponse (total)860ms
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)395msTemps de réponse (max)395msTemps de réponse (total)395ms
Instructions following: 4.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.09sTemps de réponse (max)1.90sTemps de réponse (total)2.18s
Puzzle Solving: 3.3Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.69sTemps de réponse (max)2.88sTemps de réponse (total)5.08s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 3Mauvaise réponse: 3Temps de réponse (moy.)29.10sTemps de réponse (max)170.45sTemps de réponse (total)290.96s…
Tests totaux: 16Tests incorrects: 6Taux de réussite par tentative: 68.8%Tests instables: 2…Jetons de sortie: 71,452Jetons de raisonnement: 155,147Temps de réponse : moy. 29.10s · total 290.96s · max 170.45s
N'a pas suivi les instructions: 3Mauvaise réponse: 3
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)18.54sTemps de réponse (max)32.30sTemps de réponse (total)37.07s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)29.57sTemps de réponse (max)29.57sTemps de réponse (total)29.57s
Data parsing and extraction: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.01sTemps de réponse (max)15.01sTemps de réponse (total)15.01s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)170.45sTemps de réponse (max)170.45sTemps de réponse (total)170.45s
General Intelligence: 6.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)6.54sTemps de réponse (max)6.54sTemps de réponse (total)6.54s
Instructions following: 9.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)4.98sTemps de réponse (max)4.98sTemps de réponse (total)4.98s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)7.72sTemps de réponse (max)10.60sTemps de réponse (total)15.44s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)11.91sTemps de réponse (max)11.91sTemps de réponse (total)11.91s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 9N'a pas suivi les instructions: 2Temps de réponse (moy.)3.15sTemps de réponse (max)8.91sTemps de réponse (total)50.46s…
Tests totaux: 16Tests incorrects: 11Taux de réussite par tentative: 33.3%Tests instables: 1…Jetons de sortie: 1,837Jetons de raisonnement: 0Temps de réponse : moy. 3.15s · total 50.46s · max 8.91s
Mauvaise réponse: 9N'a pas suivi les instructions: 2
Anti-AI Tricks: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)3.59sTemps de réponse (max)8.17sTemps de réponse (total)10.78s
Combined: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)8.91sTemps de réponse (max)8.91sTemps de réponse (total)8.91s
Data parsing and extraction: 9.9Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.26sTemps de réponse (max)4.66sTemps de réponse (total)6.52s
Domain specific: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)877msTemps de réponse (max)894msTemps de réponse (total)2.63s
General Intelligence: 3.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.86sTemps de réponse (max)2.86sTemps de réponse (total)2.86s
Instructions following: 3.5Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Mauvaise réponse: 1Temps de réponse (moy.)1.09sTemps de réponse (max)1.23sTemps de réponse (total)2.19s
Puzzle Solving: 4.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)3.30sTemps de réponse (max)4.81sTemps de réponse (total)9.91s
Tool Calling: 10.0Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)6.67sTemps de réponse (max)6.67sTemps de réponse (total)6.67s