Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Falsche Antwort: 3Antwortzeit (Durchschnitt)9.81sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)176.62s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 2…Ausgabe-Token: 1,568Denk-Token: 91,909Antwortzeit: Durchschn. 9.81s · Gesamt 176.62s · Max. 31.36s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.16sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)12.65s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.36sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)31.36s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.93sAntwortzeit (Maximum)20.93sAntwortzeit (Gesamt)20.93s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.01sAntwortzeit (Maximum)4.27sAntwortzeit (Gesamt)8.02s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)21.33sAntwortzeit (Maximum)24.21sAntwortzeit (Gesamt)64.00s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.78sAntwortzeit (Maximum)5.78sAntwortzeit (Gesamt)5.78s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.97sAntwortzeit (Maximum)6.05sAntwortzeit (Gesamt)9.94s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.85sAntwortzeit (Maximum)4.53sAntwortzeit (Gesamt)11.55s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.39sAntwortzeit (Maximum)12.39sAntwortzeit (Gesamt)12.39s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 1…Ausgabe-Token: 42,068Denk-Token: 26,784Antwortzeit: Durchschn. 12.66s · Gesamt 126.62s · Max. 46.35s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)35.76sAntwortzeit (Maximum)35.76sAntwortzeit (Gesamt)35.76s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.35sAntwortzeit (Maximum)46.35sAntwortzeit (Gesamt)46.35s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.90sAntwortzeit (Maximum)13.90sAntwortzeit (Gesamt)13.90s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.94sAntwortzeit (Maximum)4.94sAntwortzeit (Gesamt)4.94s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.61sAntwortzeit (Maximum)2.61sAntwortzeit (Gesamt)2.61s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.80sAntwortzeit (Maximum)5.22sAntwortzeit (Gesamt)9.60s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.48sAntwortzeit (Maximum)7.48sAntwortzeit (Gesamt)7.48s
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 4…Ausgabe-Token: 7,554Denk-Token: 45,588Antwortzeit: Durchschn. 43.49s · Gesamt 782.73s · Max. 180.92s
Anti-KI-Tricks
: 8.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)30.72sAntwortzeit (Maximum)44.23sAntwortzeit (Gesamt)122.88s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)180.92sAntwortzeit (Maximum)180.92sAntwortzeit (Gesamt)180.92s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)93.11sAntwortzeit (Maximum)93.11sAntwortzeit (Gesamt)93.11s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)36.09sAntwortzeit (Maximum)39.12sAntwortzeit (Gesamt)72.18s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)21.78sAntwortzeit (Maximum)30.66sAntwortzeit (Gesamt)65.35s
Allgemeine Intelligenz
: 5.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)31.30sAntwortzeit (Maximum)31.30sAntwortzeit (Gesamt)31.30s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)35.78sAntwortzeit (Maximum)47.30sAntwortzeit (Gesamt)71.56s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)36.87sAntwortzeit (Maximum)59.22sAntwortzeit (Gesamt)110.62s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.81sAntwortzeit (Maximum)34.81sAntwortzeit (Gesamt)34.81s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.84sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)123.17s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 3…Ausgabe-Token: 17,346Denk-Token: 0Antwortzeit: Durchschn. 6.84s · Gesamt 123.17s · Max. 38.52s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.40sAntwortzeit (Maximum)4.78sAntwortzeit (Gesamt)13.59s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.97sAntwortzeit (Maximum)8.97sAntwortzeit (Gesamt)8.97s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.12sAntwortzeit (Maximum)9.12sAntwortzeit (Gesamt)9.12s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.05sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)6.10s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)53.33s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20s
Befolgung von Anweisungen
: 7.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.46sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.92s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.42sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)13.27s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.68sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)4.68s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)23.42s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 1…Ausgabe-Token: 5,361Denk-Token: 0Antwortzeit: Durchschn. 1.30s · Gesamt 23.42s · Max. 3.39s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.47sAntwortzeit (Maximum)1.47sAntwortzeit (Gesamt)1.47s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.22sAntwortzeit (Maximum)1.33sAntwortzeit (Gesamt)2.44s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)942msAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)2.83s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)741msAntwortzeit (Maximum)741msAntwortzeit (Gesamt)741ms
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.13sAntwortzeit (Maximum)1.14sAntwortzeit (Gesamt)2.27s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)972msAntwortzeit (Maximum)1.13sAntwortzeit (Gesamt)2.92s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.39sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)3.39s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Falsche Antwort: 3Antwortzeit (Durchschnitt)26.78sAntwortzeit (Maximum)170.45sAntwortzeit (Gesamt)294.58s…
Gesamttests: 17Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.6%Instabile Tests: 2…Ausgabe-Token: 71,904Denk-Token: 155,607Antwortzeit: Durchschn. 26.78s · Gesamt 294.58s · Max. 170.45s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.56sAntwortzeit (Maximum)32.30sAntwortzeit (Gesamt)40.68s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)29.57sAntwortzeit (Maximum)29.57sAntwortzeit (Gesamt)29.57s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.01sAntwortzeit (Maximum)15.01sAntwortzeit (Gesamt)15.01s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)170.45sAntwortzeit (Maximum)170.45sAntwortzeit (Gesamt)170.45s
Allgemeine Intelligenz
: 5.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.54sAntwortzeit (Maximum)6.54sAntwortzeit (Gesamt)6.54s
Befolgung von Anweisungen
: 8.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.98sAntwortzeit (Maximum)4.98sAntwortzeit (Gesamt)4.98s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)10.60sAntwortzeit (Gesamt)15.44s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.91sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)11.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)47.47sAntwortzeit (Maximum)255.28sAntwortzeit (Gesamt)854.45s…
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 5…Ausgabe-Token: 1,757Denk-Token: 55,907Antwortzeit: Durchschn. 47.47s · Gesamt 854.45s · Max. 255.28s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)28.51sAntwortzeit (Maximum)39.73sAntwortzeit (Gesamt)114.05s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)62.48sAntwortzeit (Maximum)62.48sAntwortzeit (Gesamt)62.48s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.57sAntwortzeit (Maximum)76.57sAntwortzeit (Gesamt)76.57s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.03sAntwortzeit (Maximum)30.49sAntwortzeit (Gesamt)56.07s
Domänenspezifisch
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)112.69sAntwortzeit (Maximum)255.28sAntwortzeit (Gesamt)338.07s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)25.15sAntwortzeit (Maximum)25.15sAntwortzeit (Gesamt)25.15s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.36sAntwortzeit (Maximum)19.53sAntwortzeit (Gesamt)30.73s
Rätsellösen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)25.53sAntwortzeit (Maximum)32.37sAntwortzeit (Gesamt)76.60s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)74.73sAntwortzeit (Maximum)74.73sAntwortzeit (Gesamt)74.73s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.8%Instabile Tests: 6…Ausgabe-Token: 2,351Denk-Token: 58,941Antwortzeit: Durchschn. 14.96s · Gesamt 269.32s · Max. 67.08s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.78sAntwortzeit (Maximum)13.78sAntwortzeit (Gesamt)13.78s
Kombiniert
: 6.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)15.06sAntwortzeit (Maximum)15.06sAntwortzeit (Gesamt)15.06s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.60sAntwortzeit (Maximum)9.92sAntwortzeit (Gesamt)19.19s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)38.15sAntwortzeit (Maximum)67.08sAntwortzeit (Gesamt)114.45s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.09sAntwortzeit (Maximum)11.09sAntwortzeit (Gesamt)11.09s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.74sAntwortzeit (Maximum)5.23sAntwortzeit (Gesamt)7.47s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)10.91sAntwortzeit (Maximum)18.97sAntwortzeit (Gesamt)32.74s
Werkzeugaufrufe
: 7.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)12.53sAntwortzeit (Maximum)12.53sAntwortzeit (Gesamt)12.53s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 81.5%Instabile Tests: 6…Ausgabe-Token: 2,073Denk-Token: 191,899Antwortzeit: Durchschn. 66.72s · Gesamt 1201.03s · Max. 234.29s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)59.11sAntwortzeit (Maximum)168.31sAntwortzeit (Gesamt)236.44s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)45.75sAntwortzeit (Maximum)45.75sAntwortzeit (Gesamt)45.75s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)17.78sAntwortzeit (Gesamt)17.78s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)56.99sAntwortzeit (Maximum)80.14sAntwortzeit (Gesamt)113.98s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)146.50sAntwortzeit (Maximum)234.29sAntwortzeit (Gesamt)439.49s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)40.05sAntwortzeit (Maximum)40.05sAntwortzeit (Gesamt)40.05s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)63.49sAntwortzeit (Maximum)111.61sAntwortzeit (Gesamt)126.98s
Rätsellösen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Antwortzeit (Durchschnitt)56.74sAntwortzeit (Maximum)115.01sAntwortzeit (Gesamt)170.23s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.33sAntwortzeit (Maximum)10.33sAntwortzeit (Gesamt)10.33s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Zeitüberschreitung: 2API-Fehler: 1Antwortzeit (Durchschnitt)24.13sAntwortzeit (Maximum)118.52sAntwortzeit (Gesamt)410.25s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 3…Ausgabe-Token: 8,005Denk-Token: 49,090Antwortzeit: Durchschn. 24.13s · Gesamt 410.25s · Max. 118.52s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.31sAntwortzeit (Maximum)14.20sAntwortzeit (Gesamt)33.24s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)118.52sAntwortzeit (Maximum)118.52sAntwortzeit (Gesamt)118.52s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.11sAntwortzeit (Maximum)43.11sAntwortzeit (Gesamt)43.11s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.33sAntwortzeit (Maximum)9.40sAntwortzeit (Gesamt)18.66s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)29.77sAntwortzeit (Maximum)32.22sAntwortzeit (Gesamt)89.30s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.95sAntwortzeit (Maximum)20.95sAntwortzeit (Gesamt)20.95s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.47sAntwortzeit (Maximum)10.16sAntwortzeit (Gesamt)14.94s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)23.85sAntwortzeit (Maximum)33.09sAntwortzeit (Gesamt)71.54s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 3…Ausgabe-Token: 2,840Denk-Token: 116,242Antwortzeit: Durchschn. 13.71s · Gesamt 246.73s · Max. 86.93s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.98sAntwortzeit (Maximum)3.76sAntwortzeit (Gesamt)7.92s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.48sAntwortzeit (Maximum)31.48sAntwortzeit (Gesamt)31.48s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.86sAntwortzeit (Maximum)16.86sAntwortzeit (Gesamt)16.86s
Allgemeine Intelligenz
: 3.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.55sAntwortzeit (Maximum)1.55sAntwortzeit (Gesamt)1.55s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.80sAntwortzeit (Maximum)1.81sAntwortzeit (Gesamt)3.60s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)20.60sAntwortzeit (Maximum)57.93sAntwortzeit (Gesamt)61.79s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.29sAntwortzeit (Maximum)7.29sAntwortzeit (Gesamt)7.29s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 4…Ausgabe-Token: 80,759Denk-Token: 179,814Antwortzeit: Durchschn. 45.20s · Gesamt 768.37s · Max. 215.85s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)106.96sAntwortzeit (Maximum)106.96sAntwortzeit (Gesamt)106.96s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)40.96sAntwortzeit (Maximum)40.96sAntwortzeit (Gesamt)40.96s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.38sAntwortzeit (Maximum)22.88sAntwortzeit (Gesamt)40.76s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Antwortzeit (Durchschnitt)202.38sAntwortzeit (Maximum)215.85sAntwortzeit (Gesamt)404.76s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.83sAntwortzeit (Maximum)17.83sAntwortzeit (Gesamt)17.83s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.53sAntwortzeit (Maximum)19.15sAntwortzeit (Gesamt)25.06s
Rätsellösen
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)25.59sAntwortzeit (Maximum)56.89sAntwortzeit (Gesamt)76.76s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.92sAntwortzeit (Maximum)8.92sAntwortzeit (Gesamt)8.92s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 61.1%Instabile Tests: 0…Ausgabe-Token: 928Denk-Token: 72,661Antwortzeit: Durchschn. 16.76s · Gesamt 301.61s · Max. 158.78s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.11sAntwortzeit (Maximum)3.43sAntwortzeit (Gesamt)8.43s
Programmierung
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)68.55sAntwortzeit (Maximum)68.55sAntwortzeit (Gesamt)68.55s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.29sAntwortzeit (Maximum)19.29sAntwortzeit (Gesamt)19.29s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.29sAntwortzeit (Maximum)2.62sAntwortzeit (Gesamt)4.58s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.92sAntwortzeit (Maximum)7.14sAntwortzeit (Gesamt)9.83s
Rätsellösen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)3.88sAntwortzeit (Maximum)8.21sAntwortzeit (Gesamt)11.65s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.07sAntwortzeit (Maximum)11.07sAntwortzeit (Gesamt)11.07s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.88sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)105.90s…
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 68.5%Instabile Tests: 3…Ausgabe-Token: 20,784Denk-Token: 0Antwortzeit: Durchschn. 5.88s · Gesamt 105.90s · Max. 18.33s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.32sAntwortzeit (Maximum)9.32sAntwortzeit (Gesamt)9.32s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.21sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)4.42s
Domänenspezifisch
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)13.01sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)39.04s
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.99sAntwortzeit (Maximum)1.99sAntwortzeit (Gesamt)1.99s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.29sAntwortzeit (Maximum)4.18sAntwortzeit (Gesamt)6.59s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.93sAntwortzeit (Maximum)3.05sAntwortzeit (Gesamt)8.78s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.36sAntwortzeit (Maximum)8.36sAntwortzeit (Gesamt)8.36s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 4Falsche Antwort: 2Antwortzeit (Durchschnitt)21.08sAntwortzeit (Maximum)83.40sAntwortzeit (Gesamt)231.84s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 2…Ausgabe-Token: 29,829Denk-Token: 18,938Antwortzeit: Durchschn. 21.08s · Gesamt 231.84s · Max. 83.40s
Anti-KI-Tricks
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Antwortzeit (Durchschnitt)7.45sAntwortzeit (Maximum)11.88sAntwortzeit (Gesamt)14.90s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.11sAntwortzeit (Maximum)23.11sAntwortzeit (Gesamt)23.11s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.66sAntwortzeit (Maximum)76.66sAntwortzeit (Gesamt)76.66s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.37sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)7.37s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.04sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)5.04s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)2.43s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.60sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)9.20s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.73sAntwortzeit (Maximum)9.73sAntwortzeit (Gesamt)9.73s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)11.21sAntwortzeit (Maximum)94.06sAntwortzeit (Gesamt)201.80s…
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 68.5%Instabile Tests: 2…Ausgabe-Token: 2,946Denk-Token: 58,132Antwortzeit: Durchschn. 11.21s · Gesamt 201.80s · Max. 94.06s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.52sAntwortzeit (Maximum)7.74sAntwortzeit (Gesamt)18.10s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.41sAntwortzeit (Maximum)13.41sAntwortzeit (Gesamt)13.41s
Kombiniert
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.13sAntwortzeit (Maximum)24.13sAntwortzeit (Gesamt)24.13s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.54sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)5.08s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)38.18sAntwortzeit (Maximum)94.06sAntwortzeit (Gesamt)114.53s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.15sAntwortzeit (Maximum)4.15sAntwortzeit (Gesamt)4.15s
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.88sAntwortzeit (Maximum)2.61sAntwortzeit (Gesamt)3.75s
Rätsellösen
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)3.65sAntwortzeit (Maximum)4.02sAntwortzeit (Gesamt)10.95s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.71sAntwortzeit (Maximum)7.71sAntwortzeit (Gesamt)7.71s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 66.7%Instabile Tests: 2…Ausgabe-Token: 2,419Denk-Token: 79,238Antwortzeit: Durchschn. 69.70s · Gesamt 1045.47s · Max. 262.83s
Anti-KI-Tricks
: 6.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)74.75sAntwortzeit (Maximum)182.10sAntwortzeit (Gesamt)298.98s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)197.31sAntwortzeit (Maximum)197.31sAntwortzeit (Gesamt)197.31s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)262.83sAntwortzeit (Maximum)262.83sAntwortzeit (Gesamt)262.83s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.27sAntwortzeit (Maximum)27.52sAntwortzeit (Gesamt)48.54s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 3Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Allgemeine Intelligenz
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)36.65sAntwortzeit (Maximum)36.65sAntwortzeit (Gesamt)36.65s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.47sAntwortzeit (Maximum)19.46sAntwortzeit (Gesamt)34.93s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)25.85sAntwortzeit (Maximum)32.95sAntwortzeit (Gesamt)77.55s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)88.68sAntwortzeit (Maximum)88.68sAntwortzeit (Gesamt)88.68s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 72.2%Instabile Tests: 4…Ausgabe-Token: 2,705Denk-Token: 18,977Antwortzeit: Durchschn. 14.04s · Gesamt 154.41s · Max. 77.80s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.12sAntwortzeit (Maximum)15.12sAntwortzeit (Gesamt)15.12s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.06sAntwortzeit (Maximum)14.06sAntwortzeit (Gesamt)14.06s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.15sAntwortzeit (Maximum)3.15sAntwortzeit (Gesamt)3.15s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)77.80sAntwortzeit (Maximum)77.80sAntwortzeit (Gesamt)77.80s
Allgemeine Intelligenz
: 3.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.32sAntwortzeit (Maximum)4.32sAntwortzeit (Gesamt)4.32s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.12sAntwortzeit (Maximum)3.12sAntwortzeit (Gesamt)3.12s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.47sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.94s
Werkzeugaufrufe
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)10.30sAntwortzeit (Maximum)10.30sAntwortzeit (Gesamt)10.30s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 3…Ausgabe-Token: 12,387Denk-Token: 115,182Antwortzeit: Durchschn. 23.36s · Gesamt 280.34s · Max. 96.01s
Anti-KI-Tricks
: 8.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)15.85sAntwortzeit (Maximum)20.83sAntwortzeit (Gesamt)47.55s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)13.03sAntwortzeit (Maximum)13.03sAntwortzeit (Gesamt)13.03s
Kombiniert
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)75.68sAntwortzeit (Maximum)75.68sAntwortzeit (Gesamt)75.68s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)96.01sAntwortzeit (Maximum)96.01sAntwortzeit (Gesamt)96.01s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.20sAntwortzeit (Maximum)4.20sAntwortzeit (Gesamt)4.20s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.28sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)8.55s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.77sAntwortzeit (Maximum)5.26sAntwortzeit (Gesamt)7.55s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.78sAntwortzeit (Maximum)27.78sAntwortzeit (Gesamt)27.78s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 64.8%Instabile Tests: 1…Ausgabe-Token: 7,433Denk-Token: 0Antwortzeit: Durchschn. 4.98s · Gesamt 54.83s · Max. 23.84s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.67sAntwortzeit (Maximum)3.67sAntwortzeit (Gesamt)3.67s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.84sAntwortzeit (Maximum)23.84sAntwortzeit (Gesamt)23.84s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.43sAntwortzeit (Maximum)3.43sAntwortzeit (Gesamt)3.43s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.56sAntwortzeit (Maximum)2.56sAntwortzeit (Gesamt)2.56s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.96sAntwortzeit (Maximum)1.96sAntwortzeit (Gesamt)1.96s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)2.92sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)5.84s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.11sAntwortzeit (Maximum)4.11sAntwortzeit (Gesamt)4.11s
Gesamttests: 18Falsche Tests: 8Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 7…Ausgabe-Token: 10,137Denk-Token: 208,761Antwortzeit: Durchschn. 44.51s · Gesamt 801.21s · Max. 106.00s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)21.13sAntwortzeit (Maximum)34.96sAntwortzeit (Gesamt)84.53s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)79.09sAntwortzeit (Maximum)79.09sAntwortzeit (Gesamt)79.09s
Kombiniert
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)75.34sAntwortzeit (Maximum)75.34sAntwortzeit (Gesamt)75.34s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)59.33sAntwortzeit (Maximum)97.12sAntwortzeit (Gesamt)118.65s
Domänenspezifisch
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)88.34sAntwortzeit (Maximum)106.00sAntwortzeit (Gesamt)265.01s
Allgemeine Intelligenz
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)30.30sAntwortzeit (Maximum)30.30sAntwortzeit (Gesamt)30.30s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.45sAntwortzeit (Maximum)43.36sAntwortzeit (Gesamt)48.89s
Rätsellösen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)31.58sAntwortzeit (Maximum)60.18sAntwortzeit (Gesamt)94.75s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.65sAntwortzeit (Maximum)4.65sAntwortzeit (Gesamt)4.65s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 5Falsche Antwort: 4Antwortzeit (Durchschnitt)15.22sAntwortzeit (Maximum)102.91sAntwortzeit (Gesamt)273.90s…
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 6…Ausgabe-Token: 2,131Denk-Token: 59,567Antwortzeit: Durchschn. 15.22s · Gesamt 273.90s · Max. 102.91s
Anti-KI-Tricks
: 8.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.05sAntwortzeit (Maximum)6.69sAntwortzeit (Gesamt)16.20s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.76sAntwortzeit (Maximum)7.76sAntwortzeit (Gesamt)7.76s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.81sAntwortzeit (Maximum)17.81sAntwortzeit (Gesamt)17.81s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)4.87s
Domänenspezifisch
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)65.31sAntwortzeit (Maximum)102.91sAntwortzeit (Gesamt)195.92s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.72sAntwortzeit (Maximum)3.72sAntwortzeit (Gesamt)3.72s
Befolgung von Anweisungen
: 7.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.50sAntwortzeit (Maximum)2.55sAntwortzeit (Gesamt)5.00s
Rätsellösen
: 6.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)4.33sAntwortzeit (Maximum)7.27sAntwortzeit (Gesamt)13.00s
Werkzeugaufrufe
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)9.62sAntwortzeit (Maximum)9.62sAntwortzeit (Gesamt)9.62s
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 61.1%Instabile Tests: 3…Ausgabe-Token: 6,379Denk-Token: 53,482Antwortzeit: Durchschn. 23.98s · Gesamt 431.56s · Max. 88.15s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.18sAntwortzeit (Maximum)23.18sAntwortzeit (Gesamt)23.18s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)88.15sAntwortzeit (Maximum)88.15sAntwortzeit (Gesamt)88.15s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.58sAntwortzeit (Maximum)13.87sAntwortzeit (Gesamt)25.16s
Domänenspezifisch
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)44.63sAntwortzeit (Maximum)82.55sAntwortzeit (Gesamt)133.89s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)13.50sAntwortzeit (Maximum)13.50sAntwortzeit (Gesamt)13.50s
Befolgung von Anweisungen
: 8.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)15.66sAntwortzeit (Maximum)21.80sAntwortzeit (Gesamt)31.32s
Rätsellösen
: 5.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)14.09sAntwortzeit (Maximum)16.81sAntwortzeit (Gesamt)42.28s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)18.64sAntwortzeit (Maximum)18.64sAntwortzeit (Gesamt)18.64s
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 72.2%Instabile Tests: 7…Ausgabe-Token: 42,176Denk-Token: 84,870Antwortzeit: Durchschn. 72.43s · Gesamt 796.70s · Max. 150.77s
Anti-KI-Tricks
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)51.38sAntwortzeit (Maximum)85.28sAntwortzeit (Gesamt)102.75s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)150.77sAntwortzeit (Maximum)150.77sAntwortzeit (Gesamt)150.77s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)71.37sAntwortzeit (Maximum)71.37sAntwortzeit (Gesamt)71.37s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)49.78sAntwortzeit (Maximum)49.78sAntwortzeit (Gesamt)49.78s
Domänenspezifisch
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)137.29sAntwortzeit (Maximum)137.29sAntwortzeit (Gesamt)137.29s
Allgemeine Intelligenz
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)69.73sAntwortzeit (Maximum)69.73sAntwortzeit (Gesamt)69.73s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)92.47sAntwortzeit (Maximum)92.47sAntwortzeit (Gesamt)92.47s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)45.40sAntwortzeit (Maximum)82.75sAntwortzeit (Gesamt)90.79s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.74sAntwortzeit (Maximum)31.74sAntwortzeit (Gesamt)31.74s
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 66.7%Instabile Tests: 5…Ausgabe-Token: 1,744Denk-Token: 109,882Antwortzeit: Durchschn. 10.33s · Gesamt 185.87s · Max. 29.87s
Anti-KI-Tricks
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.36sAntwortzeit (Maximum)4.08sAntwortzeit (Gesamt)13.42s
Programmierung
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)24.33sAntwortzeit (Maximum)24.33sAntwortzeit (Gesamt)24.33s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.40sAntwortzeit (Maximum)17.40sAntwortzeit (Gesamt)17.40s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.17sAntwortzeit (Maximum)5.02sAntwortzeit (Gesamt)8.34s
Allgemeine Intelligenz
: 5.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.09sAntwortzeit (Maximum)7.09sAntwortzeit (Gesamt)7.09s
Befolgung von Anweisungen
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)4.42sAntwortzeit (Maximum)4.46sAntwortzeit (Gesamt)8.84s
Rätsellösen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.89sAntwortzeit (Maximum)4.90sAntwortzeit (Gesamt)11.67s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)13.68sAntwortzeit (Maximum)13.68sAntwortzeit (Gesamt)13.68s
Gesamttests: 18Falsche Tests: 8Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 55.6%Instabile Tests: 0…Ausgabe-Token: 1,359Denk-Token: 0Antwortzeit: Durchschn. 4.02s · Gesamt 64.33s · Max. 26.13s
Anti-KI-Tricks
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.85sAntwortzeit (Maximum)4.45sAntwortzeit (Gesamt)7.40s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)26.13sAntwortzeit (Maximum)26.13sAntwortzeit (Gesamt)26.13s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.25sAntwortzeit (Maximum)3.02sAntwortzeit (Gesamt)4.51s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.22sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)9.67s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.09sAntwortzeit (Maximum)2.09sAntwortzeit (Gesamt)2.09s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.84sAntwortzeit (Maximum)4.45sAntwortzeit (Gesamt)5.68s
Rätsellösen
: 5.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)2.95sAntwortzeit (Maximum)4.05sAntwortzeit (Gesamt)8.85s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Antwortzeit (Durchschnitt)2.60sAntwortzeit (Maximum)6.65sAntwortzeit (Gesamt)31.23s…
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 53.7%Instabile Tests: 2…Ausgabe-Token: 2,461Denk-Token: 0Antwortzeit: Durchschn. 2.60s · Gesamt 31.23s · Max. 6.65s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.91sAntwortzeit (Maximum)2.74sAntwortzeit (Gesamt)3.82s
Programmierung
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.63sAntwortzeit (Maximum)3.63sAntwortzeit (Gesamt)3.63s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.65sAntwortzeit (Maximum)6.65sAntwortzeit (Gesamt)6.65s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.89sAntwortzeit (Maximum)1.89sAntwortzeit (Gesamt)1.89s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.17sAntwortzeit (Maximum)1.44sAntwortzeit (Gesamt)2.33s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.26sAntwortzeit (Maximum)2.26sAntwortzeit (Gesamt)2.26s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.67sAntwortzeit (Maximum)1.67sAntwortzeit (Gesamt)1.67s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.82sAntwortzeit (Maximum)3.52sAntwortzeit (Gesamt)5.65s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.33sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)3.33s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.83sAntwortzeit (Maximum)5.56sAntwortzeit (Gesamt)32.86s…
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 61.1%Instabile Tests: 4…Ausgabe-Token: 1,910Denk-Token: 0Antwortzeit: Durchschn. 1.83s · Gesamt 32.86s · Max. 5.56s
Anti-KI-Tricks
: 6.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.31sAntwortzeit (Maximum)2.08sAntwortzeit (Gesamt)5.25s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.05sAntwortzeit (Maximum)2.05sAntwortzeit (Gesamt)2.05s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.56sAntwortzeit (Maximum)5.56sAntwortzeit (Gesamt)5.56s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.18sAntwortzeit (Maximum)1.24sAntwortzeit (Gesamt)2.37s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.31sAntwortzeit (Maximum)1.39sAntwortzeit (Gesamt)3.92s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.41sAntwortzeit (Maximum)3.41sAntwortzeit (Gesamt)3.41s
Befolgung von Anweisungen
: 6.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.15sAntwortzeit (Maximum)1.19sAntwortzeit (Gesamt)2.31s
Rätsellösen
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.36sAntwortzeit (Maximum)1.56sAntwortzeit (Gesamt)4.09s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.90sAntwortzeit (Maximum)3.90sAntwortzeit (Gesamt)3.90s
Gesamttests: 18Falsche Tests: 10Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 64.8%Instabile Tests: 6…Ausgabe-Token: 4,724Denk-Token: 17,921Antwortzeit: Durchschn. 10.33s · Gesamt 175.60s · Max. 30.53s
Anti-KI-Tricks
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)4.75sAntwortzeit (Maximum)7.62sAntwortzeit (Gesamt)19.00s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Kombiniert
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)30.53sAntwortzeit (Maximum)30.53sAntwortzeit (Gesamt)30.53s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.16sAntwortzeit (Maximum)26.55sAntwortzeit (Gesamt)46.33s
Allgemeine Intelligenz
: 7.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.44sAntwortzeit (Maximum)6.44sAntwortzeit (Gesamt)6.44s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.18sAntwortzeit (Maximum)4.46sAntwortzeit (Gesamt)8.36s
Rätsellösen
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)5.36sAntwortzeit (Maximum)6.20sAntwortzeit (Gesamt)16.07s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.33sAntwortzeit (Maximum)17.33sAntwortzeit (Gesamt)17.33s
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 55.6%Instabile Tests: 3…Ausgabe-Token: 11,947Denk-Token: 29,768Antwortzeit: Durchschn. 19.06s · Gesamt 305.04s · Max. 87.80s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.08sAntwortzeit (Maximum)22.30sAntwortzeit (Gesamt)40.30s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)87.80sAntwortzeit (Maximum)87.80sAntwortzeit (Gesamt)87.80s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)18.16sAntwortzeit (Maximum)20.65sAntwortzeit (Gesamt)36.33s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)16.19sAntwortzeit (Maximum)21.56sAntwortzeit (Gesamt)32.39s
Allgemeine Intelligenz
: 3.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)27.86sAntwortzeit (Maximum)27.86sAntwortzeit (Gesamt)27.86s
Befolgung von Anweisungen
: 7.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)11.23sAntwortzeit (Gesamt)15.45s
Rätsellösen
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)8.39sAntwortzeit (Maximum)16.73sAntwortzeit (Gesamt)25.18s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)39.75sAntwortzeit (Maximum)39.75sAntwortzeit (Gesamt)39.75s