Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 33.3%Tests instables: 2…Jetons de sortie: 4,444Jetons de raisonnement: 0Temps de réponse : moy. 29.39s · total 529.10s · max 111.96s
Astuces anti-IA
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)20.18sTemps de réponse (max)26.54sTemps de réponse (total)80.73s
Programmation
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)24.04sTemps de réponse (max)24.04sTemps de réponse (total)24.04s
Combiné
: 4.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)111.96sTemps de réponse (max)111.96sTemps de réponse (total)111.96s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)23.79sTemps de réponse (max)23.85sTemps de réponse (total)47.57s
Spécifique au domaine
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)19.73sTemps de réponse (max)27.66sTemps de réponse (total)59.18s
Intelligence générale
: 4.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)23.74sTemps de réponse (max)23.74sTemps de réponse (total)23.74s
Suivi des instructions
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)17.54sTemps de réponse (max)18.51sTemps de réponse (total)35.08s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)77.93sTemps de réponse (max)77.93sTemps de réponse (total)77.93s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 29.6%Tests instables: 2…Jetons de sortie: 1,591Jetons de raisonnement: 0Temps de réponse : moy. 1.19s · total 21.37s · max 6.48s
Astuces anti-IA
: 4.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)597msTemps de réponse (max)866msTemps de réponse (total)2.39s
Programmation
: 5.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.14sTemps de réponse (max)1.14sTemps de réponse (total)1.14s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)6.48sTemps de réponse (max)6.48sTemps de réponse (total)6.48s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)601msTemps de réponse (max)634msTemps de réponse (total)1.20s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)611msTemps de réponse (max)616msTemps de réponse (total)1.83s
Intelligence générale
: 5.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)541msTemps de réponse (max)541msTemps de réponse (total)541ms
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.79sTemps de réponse (max)4.79sTemps de réponse (total)4.79s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 51.9%Tests instables: 10…Jetons de sortie: 4,984Jetons de raisonnement: 62,787Temps de réponse : moy. 31.08s · total 528.37s · max 117.04s
Programmation
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)91.27sTemps de réponse (max)91.27sTemps de réponse (total)91.27s
Combiné
: 4.7 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)41.03sTemps de réponse (max)41.03sTemps de réponse (total)41.03s
Analyse et extraction des données
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)21.95sTemps de réponse (max)24.88sTemps de réponse (total)43.89s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 2Mauvaise réponse: 1Temps de réponse (moy.)19.00sTemps de réponse (max)21.63sTemps de réponse (total)38.01s
Intelligence générale
: 3.9 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)38.70sTemps de réponse (max)38.70sTemps de réponse (total)38.70s
Appel d'outils
: 4.7 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)12.05sTemps de réponse (max)12.05sTemps de réponse (total)12.05s
Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 29.6%Tests instables: 1…Jetons de sortie: 2,596Jetons de raisonnement: 0Temps de réponse : moy. 1.27s · total 22.82s · max 3.70s
Astuces anti-IA
: 6.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.19sTemps de réponse (max)2.04sTemps de réponse (total)4.75s
Programmation
: 5.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.30sTemps de réponse (max)1.30sTemps de réponse (total)1.30s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.70sTemps de réponse (max)3.70sTemps de réponse (total)3.70s
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)979msTemps de réponse (max)1.02sTemps de réponse (total)1.96s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)925msTemps de réponse (max)1.16sTemps de réponse (total)2.77s
Intelligence générale
: 4.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)920msTemps de réponse (max)920msTemps de réponse (total)920ms
Suivi des instructions
: 9.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)987msTemps de réponse (max)1.13sTemps de réponse (total)1.97s
Appel d'outils
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)2.83sTemps de réponse (max)2.83sTemps de réponse (total)2.83s
Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 29.6%Tests instables: 1…Jetons de sortie: 1,967Jetons de raisonnement: 0Temps de réponse : moy. 1.11s · total 20.02s · max 6.04s
Astuces anti-IA
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)501msTemps de réponse (max)839msTemps de réponse (total)2.01s
Programmation
: 3.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.22sTemps de réponse (max)1.22sTemps de réponse (total)1.22s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)6.04sTemps de réponse (max)6.04sTemps de réponse (total)6.04s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)522msTemps de réponse (max)537msTemps de réponse (total)1.04s
Intelligence générale
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)659msTemps de réponse (max)659msTemps de réponse (total)659ms
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.63sTemps de réponse (max)4.63sTemps de réponse (total)4.63s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 11N'a pas suivi les instructions: 2Temps de réponse (moy.)665msTemps de réponse (max)1.72sTemps de réponse (total)11.97s…
Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 31.5%Tests instables: 1…Jetons de sortie: 2,207Jetons de raisonnement: 0Temps de réponse : moy. 665ms · total 11.97s · max 1.72s
Astuces anti-IA
: 3.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)395msTemps de réponse (max)769msTemps de réponse (total)1.58s
Programmation
: 4.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.28sTemps de réponse (max)1.28sTemps de réponse (total)1.28s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.72sTemps de réponse (max)1.72sTemps de réponse (total)1.72s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)822msTemps de réponse (max)1.08sTemps de réponse (total)1.64s
Spécifique au domaine
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)367msTemps de réponse (max)388msTemps de réponse (total)1.10s
Intelligence générale
: 4.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)729msTemps de réponse (max)729msTemps de réponse (total)729ms
Suivi des instructions
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)380msTemps de réponse (max)380msTemps de réponse (total)759ms
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.40sTemps de réponse (max)1.40sTemps de réponse (total)1.40s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 38.9%Tests instables: 5…Jetons de sortie: 44,652Jetons de raisonnement: 0Temps de réponse : moy. 11.96s · total 179.34s · max 68.97s
Programmation
: 4.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)9.57sTemps de réponse (max)9.57sTemps de réponse (total)9.57s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)7.12sTemps de réponse (max)7.12sTemps de réponse (total)7.12s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)34.98sTemps de réponse (max)68.97sTemps de réponse (total)104.94s
Intelligence générale
: 4.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.83sTemps de réponse (max)2.83sTemps de réponse (total)2.83s
Suivi des instructions
: 8.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)5.10sTemps de réponse (max)5.85sTemps de réponse (total)10.21s
Appel d'outils
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 31.5%Tests instables: 1…Jetons de sortie: 2,573Jetons de raisonnement: 0Temps de réponse : moy. 1.23s · total 22.16s · max 3.81s
Programmation
: 6.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.39sTemps de réponse (max)1.39sTemps de réponse (total)1.39s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.81sTemps de réponse (max)3.81sTemps de réponse (total)3.81s
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.04sTemps de réponse (max)1.05sTemps de réponse (total)2.08s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)927msTemps de réponse (max)1.17sTemps de réponse (total)2.78s
Intelligence générale
: 4.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)854msTemps de réponse (max)854msTemps de réponse (total)854ms
Suivi des instructions
: 9.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.03sTemps de réponse (max)1.17sTemps de réponse (total)2.07s
Appel d'outils
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)2.79sTemps de réponse (max)2.79sTemps de réponse (total)2.79s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 10N'a pas suivi les instructions: 3Temps de réponse (moy.)1.17sTemps de réponse (max)2.52sTemps de réponse (total)21.01s…
Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 35.2%Tests instables: 3…Jetons de sortie: 2,418Jetons de raisonnement: 0Temps de réponse : moy. 1.17s · total 21.01s · max 2.52s
Astuces anti-IA
: 3.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)929msTemps de réponse (max)1.55sTemps de réponse (total)3.72s
Programmation
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.19sTemps de réponse (max)1.19sTemps de réponse (total)1.19s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.52sTemps de réponse (max)2.52sTemps de réponse (total)2.52s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.30sTemps de réponse (max)1.58sTemps de réponse (total)2.61s
Spécifique au domaine
: 3.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)937msTemps de réponse (max)1.25sTemps de réponse (total)2.81s
Intelligence générale
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.82sTemps de réponse (max)1.82sTemps de réponse (total)1.82s
Suivi des instructions
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)728msTemps de réponse (max)731msTemps de réponse (total)1.46s
Appel d'outils
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)2.32sTemps de réponse (max)2.32sTemps de réponse (total)2.32s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 25.9%Tests instables: 1…Jetons de sortie: 3,617Jetons de raisonnement: 0Temps de réponse : moy. 10.18s · total 122.13s · max 45.14s
Programmation
: 7.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.14sTemps de réponse (max)3.14sTemps de réponse (total)3.14s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)45.14sTemps de réponse (max)45.14sTemps de réponse (total)45.14s
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.32sTemps de réponse (max)1.32sTemps de réponse (total)1.32s
Spécifique au domaine
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)962msTemps de réponse (max)962msTemps de réponse (total)962ms
Intelligence générale
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.34sTemps de réponse (max)1.34sTemps de réponse (total)1.34s
Suivi des instructions
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)7.71sTemps de réponse (max)14.65sTemps de réponse (total)15.42s
Résolution d'énigmes
: 3.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)22.86sTemps de réponse (max)42.58sTemps de réponse (total)45.73s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.47sTemps de réponse (max)2.47sTemps de réponse (total)2.47s
Tests totaux: 18Tests incorrects: 13Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 27.8%Tests instables: 0…Jetons de sortie: 2,177Jetons de raisonnement: 0Temps de réponse : moy. 1.05s · total 18.94s · max 2.43s
Astuces anti-IA
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)842msTemps de réponse (max)1.47sTemps de réponse (total)3.37s
Programmation
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.95sTemps de réponse (max)1.95sTemps de réponse (total)1.95s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.36sTemps de réponse (max)2.36sTemps de réponse (total)2.36s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)756msTemps de réponse (max)877msTemps de réponse (total)2.27s
Intelligence générale
: 4.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)841msTemps de réponse (max)841msTemps de réponse (total)841ms
Suivi des instructions
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)751msTemps de réponse (max)821msTemps de réponse (total)1.50s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.43sTemps de réponse (max)2.43sTemps de réponse (total)2.43s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 10N'a pas suivi les instructions: 4Temps de réponse (moy.)8.54sTemps de réponse (max)24.97sTemps de réponse (total)153.69s…
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 35.2%Tests instables: 4…Jetons de sortie: 4,760Jetons de raisonnement: 0Temps de réponse : moy. 8.54s · total 153.69s · max 24.97s
Astuces anti-IA
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)7.43sTemps de réponse (max)16.69sTemps de réponse (total)29.72s
Programmation
: 3.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.99sTemps de réponse (max)2.99sTemps de réponse (total)2.99s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)19.98sTemps de réponse (max)19.98sTemps de réponse (total)19.98s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)7.92sTemps de réponse (max)13.23sTemps de réponse (total)15.84s
Spécifique au domaine
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)6.23sTemps de réponse (max)14.38sTemps de réponse (total)18.70s
Intelligence générale
: 4.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)24.97sTemps de réponse (max)24.97sTemps de réponse (total)24.97s
Appel d'outils
: 4.7 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)16.00sTemps de réponse (max)16.00sTemps de réponse (total)16.00s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 13N'a pas suivi les instructions: 1Temps de réponse (moy.)2.00sTemps de réponse (max)7.58sTemps de réponse (total)21.99s…
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 22.2%Tests instables: 0…Jetons de sortie: 1,947Jetons de raisonnement: 0Temps de réponse : moy. 2.00s · total 21.99s · max 7.58s
Astuces anti-IA
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.34sTemps de réponse (max)1.83sTemps de réponse (total)2.67s
Programmation
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.55sTemps de réponse (max)2.55sTemps de réponse (total)2.55s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)7.58sTemps de réponse (max)7.58sTemps de réponse (total)7.58s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)637msTemps de réponse (max)637msTemps de réponse (total)637ms
Intelligence générale
: 4.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)909msTemps de réponse (max)909msTemps de réponse (total)909ms
Résolution d'énigmes
: 3.7 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.30sTemps de réponse (max)1.54sTemps de réponse (total)2.60s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.51sTemps de réponse (max)2.51sTemps de réponse (total)2.51s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 24.1%Tests instables: 1…Jetons de sortie: 3,951Jetons de raisonnement: 0Temps de réponse : moy. 1.47s · total 26.43s · max 5.91s
Astuces anti-IA
: 3.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)1.71sTemps de réponse (max)3.79sTemps de réponse (total)6.84s
Programmation
: 5.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.69sTemps de réponse (max)5.69sTemps de réponse (total)5.69s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)5.91sTemps de réponse (max)5.91sTemps de réponse (total)5.91s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)847msTemps de réponse (max)1.09sTemps de réponse (total)1.69s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)464msTemps de réponse (max)622msTemps de réponse (total)1.39s
Intelligence générale
: 4.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)552msTemps de réponse (max)552msTemps de réponse (total)552ms
Suivi des instructions
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)514msTemps de réponse (max)582msTemps de réponse (total)1.03s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 13N'a pas suivi les instructions: 1Temps de réponse (moy.)613msTemps de réponse (max)1.27sTemps de réponse (total)11.04s…
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 27.8%Tests instables: 2…Jetons de sortie: 1,625Jetons de raisonnement: 0Temps de réponse : moy. 613ms · total 11.04s · max 1.27s
Astuces anti-IA
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)483msTemps de réponse (max)716msTemps de réponse (total)1.93s
Programmation
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)969msTemps de réponse (max)969msTemps de réponse (total)969ms
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)606msTemps de réponse (max)606msTemps de réponse (total)606ms
Analyse et extraction des données
: 7.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)667msTemps de réponse (max)819msTemps de réponse (total)1.33s
Spécifique au domaine
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)534msTemps de réponse (max)733msTemps de réponse (total)1.60s
Intelligence générale
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)628msTemps de réponse (max)628msTemps de réponse (total)628ms
Suivi des instructions
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)551msTemps de réponse (max)622msTemps de réponse (total)1.10s
Résolution d'énigmes
: 3.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)533msTemps de réponse (max)637msTemps de réponse (total)1.60s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.27sTemps de réponse (max)1.27sTemps de réponse (total)1.27s
Tests totaux: 18Tests incorrects: 15Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 27.8%Tests instables: 3…Jetons de sortie: 3,241Jetons de raisonnement: 0Temps de réponse : moy. 10.75s · total 129.01s · max 81.80s
Programmation
: 4.7 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)1.69sTemps de réponse (max)1.69sTemps de réponse (total)1.69s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.28sTemps de réponse (max)4.28sTemps de réponse (total)4.28s
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)81.80sTemps de réponse (max)81.80sTemps de réponse (total)81.80s
Spécifique au domaine
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)638msTemps de réponse (max)638msTemps de réponse (total)638ms
Intelligence générale
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.39sTemps de réponse (max)1.39sTemps de réponse (total)1.39s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.64sTemps de réponse (max)2.64sTemps de réponse (total)2.64s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 27.8%Tests instables: 2…Jetons de sortie: 2,639Jetons de raisonnement: 0Temps de réponse : moy. 13.56s · total 230.55s · max 35.84s
Programmation
: 2.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)4.56sTemps de réponse (max)4.56sTemps de réponse (total)4.56s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)35.84sTemps de réponse (max)35.84sTemps de réponse (total)35.84s
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)2.85sTemps de réponse (max)2.85sTemps de réponse (total)2.85s
Spécifique au domaine
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Erreur API: 1Temps de réponse (moy.)17.61sTemps de réponse (max)25.68sTemps de réponse (total)52.82s
Intelligence générale
: 4.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)16.07sTemps de réponse (max)16.07sTemps de réponse (total)16.07s
Suivi des instructions
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mise en forme supplémentaire: 1Temps de réponse (moy.)12.98sTemps de réponse (max)23.51sTemps de réponse (total)25.95s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)33.76sTemps de réponse (max)33.76sTemps de réponse (total)33.76s
Tests totaux: 18Tests incorrects: 14Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 38.9%Tests instables: 8…Jetons de sortie: 39,688Jetons de raisonnement: 72,401Temps de réponse : moy. 32.33s · total 355.65s · max 174.55s
Programmation
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)21.26sTemps de réponse (max)21.26sTemps de réponse (total)21.26s
Combiné
: 2.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)65.57sTemps de réponse (max)65.57sTemps de réponse (total)65.57s
Analyse et extraction des données
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse: 1Temps de réponse (moy.)1.51sTemps de réponse (max)1.51sTemps de réponse (total)1.51s
Spécifique au domaine
: 3.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Aucune réponse: 1Temps de réponse (moy.)174.55sTemps de réponse (max)174.55sTemps de réponse (total)174.55s
Intelligence générale
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)18.14sTemps de réponse (max)18.14sTemps de réponse (total)18.14s
Suivi des instructions
: 6.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.97sTemps de réponse (max)2.97sTemps de réponse (total)2.97s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)15.95sTemps de réponse (max)15.95sTemps de réponse (total)15.95s
Tests totaux: 18Tests incorrects: 15Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 27.8%Tests instables: 5…Jetons de sortie: 68,522Jetons de raisonnement: 0Temps de réponse : moy. 2.79s · total 39.08s · max 19.68s
Astuces anti-IA
: 3.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)1.19sTemps de réponse (max)2.73sTemps de réponse (total)4.76s
Programmation
: 6.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.79sTemps de réponse (max)2.79sTemps de réponse (total)2.79s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)2.87sTemps de réponse (max)2.87sTemps de réponse (total)2.87s
Spécifique au domaine
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)564msTemps de réponse (max)564msTemps de réponse (total)564ms
Intelligence générale
: 4.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.67sTemps de réponse (max)1.67sTemps de réponse (total)1.67s
Suivi des instructions
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)857msTemps de réponse (max)955msTemps de réponse (total)1.71s
Résolution d'énigmes
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.38sTemps de réponse (max)1.74sTemps de réponse (total)2.75s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)2.28sTemps de réponse (max)2.28sTemps de réponse (total)2.28s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 13N'a pas suivi les instructions: 2Temps de réponse (moy.)1.76sTemps de réponse (max)5.51sTemps de réponse (total)19.35s…
Tests totaux: 18Tests incorrects: 15Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 24.1%Tests instables: 3…Jetons de sortie: 1,721Jetons de raisonnement: 0Temps de réponse : moy. 1.76s · total 19.35s · max 5.51s
Programmation
: 5.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.79sTemps de réponse (max)1.79sTemps de réponse (total)1.79s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.33sTemps de réponse (max)3.33sTemps de réponse (total)3.33s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)943msTemps de réponse (max)943msTemps de réponse (total)943ms
Spécifique au domaine
: 5.9 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.06sTemps de réponse (max)1.06sTemps de réponse (total)1.06s
Intelligence générale
: 4.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.08sTemps de réponse (max)1.08sTemps de réponse (total)1.08s
Suivi des instructions
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)923msTemps de réponse (max)923msTemps de réponse (total)923ms
Résolution d'énigmes
: 3.2 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.28sTemps de réponse (max)1.36sTemps de réponse (total)2.56s
Appel d'outils
: 2.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.51sTemps de réponse (max)5.51sTemps de réponse (total)5.51s
Tests totaux: 18Tests incorrects: 15Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 16.7%Tests instables: 0…Jetons de sortie: 2,434Jetons de raisonnement: 0Temps de réponse : moy. 8.79s · total 158.19s · max 25.72s
Astuces anti-IA
: 3.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)6.55sTemps de réponse (max)9.41sTemps de réponse (total)26.19s
Programmation
: 5.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)10.57sTemps de réponse (max)10.57sTemps de réponse (total)10.57s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)23.53sTemps de réponse (max)23.53sTemps de réponse (total)23.53s
Analyse et extraction des données
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)1.37sTemps de réponse (max)1.37sTemps de réponse (total)2.73s
Spécifique au domaine
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)1.04sTemps de réponse (max)1.08sTemps de réponse (total)3.11s
Intelligence générale
: 5.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)20.34sTemps de réponse (max)20.34sTemps de réponse (total)20.34s
Suivi des instructions
: 6.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)5.36sTemps de réponse (max)9.81sTemps de réponse (total)10.73s
Appel d'outils
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Appel d'outil invalide: 1Temps de réponse (moy.)25.72sTemps de réponse (max)25.72sTemps de réponse (total)25.72s
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 13N'a pas suivi les instructions: 3Temps de réponse (moy.)1.40sTemps de réponse (max)3.84sTemps de réponse (total)25.14s…
Tests totaux: 18Tests incorrects: 16Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 31.5%Tests instables: 7…Jetons de sortie: 2,762Jetons de raisonnement: 0Temps de réponse : moy. 1.40s · total 25.14s · max 3.84s
Astuces anti-IA
: 3.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 4Temps de réponse (moy.)1.18sTemps de réponse (max)1.81sTemps de réponse (total)4.70s
Programmation
: 7.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.43sTemps de réponse (max)1.43sTemps de réponse (total)1.43s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)3.84sTemps de réponse (max)3.84sTemps de réponse (total)3.84s
Analyse et extraction des données
: 6.5 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 1Temps de réponse (moy.)1.11sTemps de réponse (max)1.25sTemps de réponse (total)2.23s
Spécifique au domaine
: 2.9 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)926msTemps de réponse (max)959msTemps de réponse (total)2.78s
Intelligence générale
: 3.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)1.31sTemps de réponse (max)1.31sTemps de réponse (total)1.31s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)3.40sTemps de réponse (max)3.40sTemps de réponse (total)3.40s
Tests totaux: 18Tests incorrects: 15Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 33.3%Tests instables: 6…Jetons de sortie: 24,291Jetons de raisonnement: 172,597Temps de réponse : moy. 73.64s · total 1104.60s · max 226.38s
Astuces anti-IA
: 5.1 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 2Mauvaise réponse: 1Temps de réponse (moy.)34.44sTemps de réponse (max)57.86sTemps de réponse (total)103.31s
Programmation
: 2.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)135.61sTemps de réponse (max)135.61sTemps de réponse (total)135.61s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Spécifique au domaine
: 3.6 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 3Temps de réponse (moy.)137.75sTemps de réponse (max)202.61sTemps de réponse (total)413.24s
Intelligence générale
: 2.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)226.38sTemps de réponse (max)226.38sTemps de réponse (total)226.38s
Suivi des instructions
: 6.4 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Délai dépassé: 1Temps de réponse (moy.)17.15sTemps de réponse (max)28.54sTemps de réponse (total)34.29s
Appel d'outils
: 10.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Aucune réponse échouée.Temps de réponse (moy.)4.31sTemps de réponse (max)4.31sTemps de réponse (total)4.31s
Tests totaux: 16Tests incorrects: 15Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 14.6%Tests instables: 2…Jetons de sortie: 1,185Jetons de raisonnement: 0Temps de réponse : moy. 811ms · total 11.35s · max 2.88s
Astuces anti-IA
: 3.3 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 3Temps de réponse (moy.)471msTemps de réponse (max)872msTemps de réponse (total)1.41s
Combiné
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Analyse et extraction des données
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)714msTemps de réponse (max)987msTemps de réponse (total)1.43s
Spécifique au domaine
: 5.9 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Mauvaise réponse: 1Temps de réponse (moy.)287msTemps de réponse (max)334msTemps de réponse (total)860ms
Intelligence générale
: 4.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.N'a pas suivi les instructions: 1Temps de réponse (moy.)395msTemps de réponse (max)395msTemps de réponse (total)395ms
Suivi des instructions
: 4.8 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Mauvaise réponse: 2Temps de réponse (moy.)1.09sTemps de réponse (max)1.90sTemps de réponse (total)2.18s
Appel d'outils
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms
Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms…
Tests totaux: 1Tests incorrects: 1Fiabilité: N/DLa télémétrie de fiabilité est indisponible ou incomplète pour ce modèle.Taux de réussite par tentative: 0.0%Tests instables: 0…Jetons de sortie: 0Jetons de raisonnement: 0Temps de réponse : moy. 0ms · total 0ms · max 0ms
Programmation
: 3.0 Un test est entièrement réussi uniquement si toutes ses exécutions réussissent.Erreur API: 1Temps de réponse (moy.)0msTemps de réponse (max)0msTemps de réponse (total)0ms