Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.11sAntwortzeit (Maximum)82.37sAntwortzeit (Gesamt)217.93s…
Gesamttests: 18Falsche Tests: 0Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 100.0%Instabile Tests: 0…Ausgabe-Token: 655Denk-Token: 33,749Antwortzeit: Durchschn. 12.11s · Gesamt 217.93s · Max. 82.37s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)5.01sAntwortzeit (Gesamt)13.04s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)82.37sAntwortzeit (Maximum)82.37sAntwortzeit (Gesamt)82.37s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.58sAntwortzeit (Maximum)23.58sAntwortzeit (Gesamt)23.58s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.62sAntwortzeit (Maximum)8.37sAntwortzeit (Gesamt)15.24s
Domänenspezifisch
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.81sAntwortzeit (Maximum)32.44sAntwortzeit (Gesamt)44.43s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.34sAntwortzeit (Maximum)6.34sAntwortzeit (Gesamt)6.34s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.30sAntwortzeit (Maximum)5.19sAntwortzeit (Gesamt)8.59s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.86sAntwortzeit (Maximum)7.59sAntwortzeit (Gesamt)14.57s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.78sAntwortzeit (Maximum)9.78sAntwortzeit (Gesamt)9.78s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)15.96sAntwortzeit (Maximum)40.61sAntwortzeit (Gesamt)175.52s…
Gesamttests: 18Falsche Tests: 1Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 94.4%Instabile Tests: 0…Ausgabe-Token: 1,932Denk-Token: 40,542Antwortzeit: Durchschn. 15.96s · Gesamt 175.52s · Max. 40.61s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.90sAntwortzeit (Maximum)9.52sAntwortzeit (Gesamt)15.80s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.88sAntwortzeit (Maximum)19.88sAntwortzeit (Gesamt)19.88s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)40.61sAntwortzeit (Maximum)40.61sAntwortzeit (Gesamt)40.61s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)7.72sAntwortzeit (Gesamt)7.72s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)32.73sAntwortzeit (Maximum)32.73sAntwortzeit (Gesamt)32.73s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.77sAntwortzeit (Maximum)11.77sAntwortzeit (Gesamt)11.77s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.56sAntwortzeit (Maximum)9.56sAntwortzeit (Gesamt)9.56s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.15sAntwortzeit (Maximum)8.49sAntwortzeit (Gesamt)14.30s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.15sAntwortzeit (Maximum)23.15sAntwortzeit (Gesamt)23.15s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)3.53sAntwortzeit (Maximum)21.45sAntwortzeit (Gesamt)60.03s…
Gesamttests: 18Falsche Tests: 2Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 88.9%Instabile Tests: 0…Ausgabe-Token: 5,375Denk-Token: 1,341Antwortzeit: Durchschn. 3.53s · Gesamt 60.03s · Max. 21.45s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.85sAntwortzeit (Maximum)2.71sAntwortzeit (Gesamt)7.38s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.41sAntwortzeit (Maximum)6.41sAntwortzeit (Gesamt)6.41s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)21.45sAntwortzeit (Maximum)21.45sAntwortzeit (Gesamt)21.45s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.37sAntwortzeit (Maximum)3.30sAntwortzeit (Gesamt)4.74s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)1.17sAntwortzeit (Maximum)1.40sAntwortzeit (Gesamt)2.35s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.87sAntwortzeit (Maximum)2.87sAntwortzeit (Gesamt)2.87s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.57sAntwortzeit (Maximum)1.66sAntwortzeit (Gesamt)3.14s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.89sAntwortzeit (Gesamt)7.54s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.17sAntwortzeit (Maximum)4.17sAntwortzeit (Gesamt)4.17s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.13sAntwortzeit (Maximum)18.27sAntwortzeit (Gesamt)56.33s…
Gesamttests: 18Falsche Tests: 2Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 88.9%Instabile Tests: 0…Ausgabe-Token: 6,326Denk-Token: 0Antwortzeit: Durchschn. 3.13s · Gesamt 56.33s · Max. 18.27s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.12sAntwortzeit (Maximum)3.75sAntwortzeit (Gesamt)8.50s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.84sAntwortzeit (Maximum)2.84sAntwortzeit (Gesamt)2.84s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)18.27sAntwortzeit (Maximum)18.27sAntwortzeit (Gesamt)18.27s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.15sAntwortzeit (Maximum)2.33sAntwortzeit (Gesamt)4.29s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)1.40sAntwortzeit (Gesamt)3.58s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.47sAntwortzeit (Maximum)3.47sAntwortzeit (Gesamt)3.47s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.46sAntwortzeit (Maximum)1.68sAntwortzeit (Gesamt)2.91s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.58sAntwortzeit (Maximum)4.07sAntwortzeit (Gesamt)7.73s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.74sAntwortzeit (Maximum)4.74sAntwortzeit (Gesamt)4.74s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)32.75sAntwortzeit (Maximum)332.10sAntwortzeit (Gesamt)589.59s…
Gesamttests: 18Falsche Tests: 3Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 87.0%Instabile Tests: 2…Ausgabe-Token: 1,920Denk-Token: 89,632Antwortzeit: Durchschn. 32.75s · Gesamt 589.59s · Max. 332.10s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.66sAntwortzeit (Maximum)6.74sAntwortzeit (Gesamt)18.65s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.09sAntwortzeit (Maximum)9.09sAntwortzeit (Gesamt)9.09s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.29sAntwortzeit (Maximum)19.29sAntwortzeit (Gesamt)19.29s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.18sAntwortzeit (Maximum)4.35sAntwortzeit (Gesamt)8.36s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)164.14sAntwortzeit (Maximum)332.10sAntwortzeit (Gesamt)492.41s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.16sAntwortzeit (Maximum)4.16sAntwortzeit (Gesamt)4.16s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.36sAntwortzeit (Maximum)3.46sAntwortzeit (Gesamt)6.73s
Rätsellösen
: 8.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.78sAntwortzeit (Maximum)10.54sAntwortzeit (Gesamt)20.33s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.57sAntwortzeit (Maximum)10.57sAntwortzeit (Gesamt)10.57s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.01sAntwortzeit (Maximum)14.72sAntwortzeit (Gesamt)108.12s…
Gesamttests: 18Falsche Tests: 3Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 85.2%Instabile Tests: 1…Ausgabe-Token: 2,018Denk-Token: 23,273Antwortzeit: Durchschn. 6.01s · Gesamt 108.12s · Max. 14.72s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.48sAntwortzeit (Maximum)4.31sAntwortzeit (Gesamt)13.94s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.94sAntwortzeit (Maximum)6.94sAntwortzeit (Gesamt)6.94s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.27sAntwortzeit (Maximum)3.27sAntwortzeit (Gesamt)3.27s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.40sAntwortzeit (Maximum)14.72sAntwortzeit (Gesamt)18.80s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)8.05sAntwortzeit (Maximum)14.40sAntwortzeit (Gesamt)24.15s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.68sAntwortzeit (Maximum)3.68sAntwortzeit (Gesamt)3.68s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.02sAntwortzeit (Maximum)7.35sAntwortzeit (Gesamt)14.03s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.11sAntwortzeit (Maximum)10.27sAntwortzeit (Gesamt)18.32s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.99sAntwortzeit (Maximum)4.99sAntwortzeit (Gesamt)4.99s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)30.37sAntwortzeit (Maximum)168.71sAntwortzeit (Gesamt)546.72s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 83.3%Instabile Tests: 3…Ausgabe-Token: 3,257Denk-Token: 52,042Antwortzeit: Durchschn. 30.37s · Gesamt 546.72s · Max. 168.71s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)17.99sAntwortzeit (Maximum)48.33sAntwortzeit (Gesamt)71.98s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)74.49sAntwortzeit (Maximum)74.49sAntwortzeit (Gesamt)74.49s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)37.67sAntwortzeit (Maximum)37.67sAntwortzeit (Gesamt)37.67s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.07sAntwortzeit (Maximum)12.19sAntwortzeit (Gesamt)18.14s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)88.74sAntwortzeit (Maximum)168.71sAntwortzeit (Gesamt)266.21s
Allgemeine Intelligenz
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)18.25sAntwortzeit (Maximum)18.25sAntwortzeit (Gesamt)18.25s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.26sAntwortzeit (Maximum)9.02sAntwortzeit (Gesamt)14.52s
Rätsellösen
: 9.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)11.03sAntwortzeit (Maximum)13.85sAntwortzeit (Gesamt)33.09s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.38sAntwortzeit (Maximum)12.38sAntwortzeit (Gesamt)12.38s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)15.38sAntwortzeit (Maximum)100.93sAntwortzeit (Gesamt)276.91s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 83.3%Instabile Tests: 3…Ausgabe-Token: 2,279Denk-Token: 35,179Antwortzeit: Durchschn. 15.38s · Gesamt 276.91s · Max. 100.93s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.16sAntwortzeit (Maximum)6.68sAntwortzeit (Gesamt)16.63s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.95sAntwortzeit (Maximum)8.95sAntwortzeit (Gesamt)8.95s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.56sAntwortzeit (Maximum)19.56sAntwortzeit (Gesamt)19.56s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.07sAntwortzeit (Maximum)3.59sAntwortzeit (Gesamt)6.15s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)64.31sAntwortzeit (Maximum)100.93sAntwortzeit (Gesamt)192.94s
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.87sAntwortzeit (Maximum)4.87sAntwortzeit (Gesamt)4.87s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.04sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)6.07s
Rätsellösen
: 9.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.12sAntwortzeit (Maximum)8.73sAntwortzeit (Gesamt)15.37s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.37sAntwortzeit (Maximum)6.37sAntwortzeit (Gesamt)6.37s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Falsche Antwort: 2Antwortzeit (Durchschnitt)46.56sAntwortzeit (Maximum)120.91sAntwortzeit (Gesamt)512.20s…
Gesamttests: 18Falsche Tests: 4Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 83.3%Instabile Tests: 2…Ausgabe-Token: 2,121Denk-Token: 111,889Antwortzeit: Durchschn. 46.56s · Gesamt 512.20s · Max. 120.91s
Anti-KI-Tricks
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)45.78sAntwortzeit (Maximum)81.20sAntwortzeit (Gesamt)91.57s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)120.91sAntwortzeit (Maximum)120.91sAntwortzeit (Gesamt)120.91s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.85sAntwortzeit (Maximum)46.85sAntwortzeit (Gesamt)46.85s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.91sAntwortzeit (Maximum)46.91sAntwortzeit (Gesamt)46.91s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)17.50sAntwortzeit (Maximum)17.50sAntwortzeit (Gesamt)17.50s
Allgemeine Intelligenz
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)79.86sAntwortzeit (Maximum)79.86sAntwortzeit (Gesamt)79.86s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.93sAntwortzeit (Maximum)31.93sAntwortzeit (Gesamt)31.93s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.57sAntwortzeit (Maximum)49.12sAntwortzeit (Gesamt)69.13s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.54sAntwortzeit (Maximum)7.54sAntwortzeit (Gesamt)7.54s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 81.5%Instabile Tests: 3…Ausgabe-Token: 238,920Denk-Token: 0Antwortzeit: Durchschn. 55.19s · Gesamt 938.23s · Max. 149.94s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)32.69sAntwortzeit (Maximum)85.41sAntwortzeit (Gesamt)130.78s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)99.76sAntwortzeit (Maximum)99.76sAntwortzeit (Gesamt)99.76s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)113.09sAntwortzeit (Maximum)113.09sAntwortzeit (Gesamt)113.09s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)12.11sAntwortzeit (Maximum)12.11sAntwortzeit (Gesamt)12.11s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)109.04sAntwortzeit (Maximum)149.94sAntwortzeit (Gesamt)327.11s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.31sAntwortzeit (Maximum)24.31sAntwortzeit (Gesamt)24.31s
Befolgung von Anweisungen
: 8.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)34.02sAntwortzeit (Maximum)41.83sAntwortzeit (Gesamt)68.04s
Rätsellösen
: 9.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)28.07sAntwortzeit (Maximum)45.06sAntwortzeit (Gesamt)84.21s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)78.83sAntwortzeit (Maximum)78.83sAntwortzeit (Gesamt)78.83s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)13.94sAntwortzeit (Maximum)43.55sAntwortzeit (Gesamt)237.01s…
Gesamttests: 17Falsche Tests: 4Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 76.5%Instabile Tests: 0…Ausgabe-Token: 1,756Denk-Token: 77,213Antwortzeit: Durchschn. 13.94s · Gesamt 237.01s · Max. 43.55s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.90sAntwortzeit (Maximum)19.37sAntwortzeit (Gesamt)39.60s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.95sAntwortzeit (Maximum)34.95sAntwortzeit (Gesamt)34.95s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.95sAntwortzeit (Maximum)15.40sAntwortzeit (Gesamt)29.90s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)22.08sAntwortzeit (Maximum)43.55sAntwortzeit (Gesamt)66.23s
Allgemeine Intelligenz
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)27.05sAntwortzeit (Maximum)27.05sAntwortzeit (Gesamt)27.05s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.54sAntwortzeit (Maximum)11.67sAntwortzeit (Gesamt)15.07s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.11sAntwortzeit (Maximum)7.52sAntwortzeit (Gesamt)18.34s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.87sAntwortzeit (Maximum)5.87sAntwortzeit (Gesamt)5.87s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 81.5%Instabile Tests: 3…Ausgabe-Token: 2,500Denk-Token: 242,500Antwortzeit: Durchschn. 53.03s · Gesamt 954.46s · Max. 163.96s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)19.75sAntwortzeit (Maximum)49.95sAntwortzeit (Gesamt)79.01s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)70.35sAntwortzeit (Maximum)70.35sAntwortzeit (Gesamt)70.35s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)163.96sAntwortzeit (Maximum)163.96sAntwortzeit (Gesamt)163.96s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)30.26sAntwortzeit (Maximum)32.03sAntwortzeit (Gesamt)60.52s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)79.53sAntwortzeit (Maximum)95.52sAntwortzeit (Gesamt)238.59s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)101.41sAntwortzeit (Maximum)101.41sAntwortzeit (Gesamt)101.41s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.66sAntwortzeit (Maximum)32.25sAntwortzeit (Gesamt)39.32s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)64.61sAntwortzeit (Maximum)123.57sAntwortzeit (Gesamt)193.84s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.45sAntwortzeit (Maximum)7.45sAntwortzeit (Gesamt)7.45s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)68.83sAntwortzeit (Maximum)280.52sAntwortzeit (Gesamt)1101.32s…
Gesamttests: 16Falsche Tests: 4Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.1%Instabile Tests: 1…Ausgabe-Token: 1,283Denk-Token: 1,533,310Antwortzeit: Durchschn. 68.83s · Gesamt 1101.32s · Max. 280.52s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.87sAntwortzeit (Maximum)121.88sAntwortzeit (Gesamt)131.62s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)280.52sAntwortzeit (Maximum)280.52sAntwortzeit (Gesamt)280.52s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.16sAntwortzeit (Maximum)8.54sAntwortzeit (Gesamt)14.31s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)127.58sAntwortzeit (Maximum)133.93sAntwortzeit (Gesamt)382.74s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.25sAntwortzeit (Maximum)5.25sAntwortzeit (Gesamt)5.25s
Befolgung von Anweisungen
: 7.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)70.07sAntwortzeit (Maximum)136.53sAntwortzeit (Gesamt)140.14s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)46.33sAntwortzeit (Maximum)134.22sAntwortzeit (Gesamt)139.00s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.73sAntwortzeit (Maximum)7.73sAntwortzeit (Gesamt)7.73s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3API-Fehler: 1Antwortzeit (Durchschnitt)9.06sAntwortzeit (Maximum)26.24sAntwortzeit (Gesamt)90.58s…
Gesamttests: 18Falsche Tests: 4Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.8%Instabile Tests: 0…Ausgabe-Token: 1,508Denk-Token: 10,084Antwortzeit: Durchschn. 9.06s · Gesamt 90.58s · Max. 26.24s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.99sAntwortzeit (Maximum)26.24sAntwortzeit (Gesamt)29.99s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.37sAntwortzeit (Maximum)10.37sAntwortzeit (Gesamt)10.37s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.84sAntwortzeit (Maximum)10.84sAntwortzeit (Gesamt)10.84s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.01sAntwortzeit (Maximum)7.01sAntwortzeit (Gesamt)7.01s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.34sAntwortzeit (Maximum)9.34sAntwortzeit (Gesamt)9.34s
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)3.26sAntwortzeit (Gesamt)3.26s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.91sAntwortzeit (Maximum)4.23sAntwortzeit (Gesamt)7.81s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 85.2%Instabile Tests: 4…Ausgabe-Token: 20,163Denk-Token: 58,337Antwortzeit: Durchschn. 23.34s · Gesamt 233.40s · Max. 79.09s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.66sAntwortzeit (Maximum)25.06sAntwortzeit (Gesamt)47.32s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)79.09sAntwortzeit (Maximum)79.09sAntwortzeit (Gesamt)79.09s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.96sAntwortzeit (Maximum)28.96sAntwortzeit (Gesamt)28.96s
Datenanalyse und -extraktion
: 7.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)8.90sAntwortzeit (Maximum)8.90sAntwortzeit (Gesamt)8.90s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)14.69sAntwortzeit (Maximum)14.69sAntwortzeit (Gesamt)14.69s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.25sAntwortzeit (Maximum)7.25sAntwortzeit (Gesamt)7.25s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.64sAntwortzeit (Maximum)16.34sAntwortzeit (Gesamt)31.27s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.93sAntwortzeit (Maximum)15.93sAntwortzeit (Gesamt)15.93s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 2…Ausgabe-Token: 12,734Denk-Token: 27,950Antwortzeit: Durchschn. 24.88s · Gesamt 398.13s · Max. 70.97s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.89sAntwortzeit (Maximum)26.66sAntwortzeit (Gesamt)51.55s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)70.97sAntwortzeit (Maximum)70.97sAntwortzeit (Gesamt)70.97s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)21.11sAntwortzeit (Maximum)21.94sAntwortzeit (Gesamt)42.21s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)38.48sAntwortzeit (Maximum)68.92sAntwortzeit (Gesamt)115.43s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.57sAntwortzeit (Maximum)9.57sAntwortzeit (Gesamt)9.57s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.76sAntwortzeit (Maximum)17.53sAntwortzeit (Gesamt)25.52s
Rätsellösen
: 8.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)27.63sAntwortzeit (Maximum)61.08sAntwortzeit (Gesamt)82.89s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.12sAntwortzeit (Maximum)95.48sAntwortzeit (Gesamt)218.12s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 1…Ausgabe-Token: 1,898Denk-Token: 122,273Antwortzeit: Durchschn. 12.12s · Gesamt 218.12s · Max. 95.48s
Anti-KI-Tricks
: 8.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.30sAntwortzeit (Maximum)15.56sAntwortzeit (Gesamt)25.21s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.23sAntwortzeit (Maximum)16.23sAntwortzeit (Gesamt)16.23s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.44sAntwortzeit (Maximum)28.44sAntwortzeit (Gesamt)28.44s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.06sAntwortzeit (Maximum)5.06sAntwortzeit (Gesamt)8.11s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)37.34sAntwortzeit (Maximum)95.48sAntwortzeit (Gesamt)112.01s
Allgemeine Intelligenz
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.86sAntwortzeit (Maximum)4.86sAntwortzeit (Gesamt)4.86s
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.62sAntwortzeit (Maximum)2.78sAntwortzeit (Gesamt)5.24s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.94sAntwortzeit (Maximum)6.33sAntwortzeit (Gesamt)11.83s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.20sAntwortzeit (Maximum)6.20sAntwortzeit (Gesamt)6.20s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)18.63sAntwortzeit (Maximum)100.41sAntwortzeit (Gesamt)335.26s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 3…Ausgabe-Token: 2,169Denk-Token: 48,732Antwortzeit: Durchschn. 18.63s · Gesamt 335.26s · Max. 100.41s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.11sAntwortzeit (Maximum)6.42sAntwortzeit (Gesamt)16.42s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.03sAntwortzeit (Maximum)13.03sAntwortzeit (Gesamt)13.03s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.57sAntwortzeit (Maximum)20.57sAntwortzeit (Gesamt)20.57s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.32sAntwortzeit (Maximum)5.40sAntwortzeit (Gesamt)10.64s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)74.27sAntwortzeit (Maximum)100.41sAntwortzeit (Gesamt)222.80s
Allgemeine Intelligenz
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.92sAntwortzeit (Maximum)4.92sAntwortzeit (Gesamt)4.92s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.11sAntwortzeit (Maximum)3.68sAntwortzeit (Gesamt)6.22s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)9.13sAntwortzeit (Maximum)18.14sAntwortzeit (Gesamt)27.39s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.28sAntwortzeit (Maximum)13.28sAntwortzeit (Gesamt)13.28s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.74sAntwortzeit (Maximum)14.93sAntwortzeit (Gesamt)67.31s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 72.2%Instabile Tests: 0…Ausgabe-Token: 2,168Denk-Token: 29,030Antwortzeit: Durchschn. 3.74s · Gesamt 67.31s · Max. 14.93s
Anti-KI-Tricks
: 9.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.33sAntwortzeit (Maximum)3.89sAntwortzeit (Gesamt)9.30s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.34sAntwortzeit (Maximum)4.34sAntwortzeit (Gesamt)4.34s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.93sAntwortzeit (Maximum)14.93sAntwortzeit (Gesamt)14.93s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.29sAntwortzeit (Maximum)2.31sAntwortzeit (Gesamt)4.59s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.21sAntwortzeit (Maximum)5.86sAntwortzeit (Gesamt)12.62s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.16sAntwortzeit (Maximum)3.16sAntwortzeit (Gesamt)3.16s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.91sAntwortzeit (Maximum)1.93sAntwortzeit (Gesamt)3.82s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.58sAntwortzeit (Maximum)4.41sAntwortzeit (Gesamt)10.75s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.80sAntwortzeit (Maximum)3.80sAntwortzeit (Gesamt)3.80s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)71.21sAntwortzeit (Maximum)351.99sAntwortzeit (Gesamt)1281.73s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 1…Ausgabe-Token: 671Denk-Token: 39,383Antwortzeit: Durchschn. 71.21s · Gesamt 1281.73s · Max. 351.99s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)26.93sAntwortzeit (Maximum)61.35sAntwortzeit (Gesamt)107.71s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)93.00sAntwortzeit (Maximum)93.00sAntwortzeit (Gesamt)93.00s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)71.08sAntwortzeit (Maximum)71.08sAntwortzeit (Gesamt)71.08s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)63.00sAntwortzeit (Maximum)102.80sAntwortzeit (Gesamt)126.00s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)202.56sAntwortzeit (Maximum)351.99sAntwortzeit (Gesamt)607.68s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)26.96sAntwortzeit (Maximum)26.96sAntwortzeit (Gesamt)26.96s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.60sAntwortzeit (Maximum)20.03sAntwortzeit (Gesamt)29.20s
Rätsellösen
: 7.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)69.69sAntwortzeit (Maximum)92.65sAntwortzeit (Gesamt)209.06s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.05sAntwortzeit (Maximum)11.05sAntwortzeit (Gesamt)11.05s
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.8%Instabile Tests: 5…Ausgabe-Token: 12,197Denk-Token: 38,933Antwortzeit: Durchschn. 17.67s · Gesamt 317.98s · Max. 194.23s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.82sAntwortzeit (Maximum)7.69sAntwortzeit (Gesamt)19.26s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.26sAntwortzeit (Maximum)12.26sAntwortzeit (Gesamt)12.26s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.88sAntwortzeit (Maximum)13.88sAntwortzeit (Gesamt)13.88s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.19sAntwortzeit (Maximum)6.42sAntwortzeit (Gesamt)12.38s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)71.07sAntwortzeit (Maximum)194.23sAntwortzeit (Gesamt)213.22s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.05sAntwortzeit (Maximum)10.05sAntwortzeit (Gesamt)10.05s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.38sAntwortzeit (Maximum)5.70sAntwortzeit (Gesamt)10.77s
Rätsellösen
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.44sAntwortzeit (Maximum)7.26sAntwortzeit (Gesamt)16.32s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.84sAntwortzeit (Maximum)9.84sAntwortzeit (Gesamt)9.84s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Zeitüberschreitung: 2Antwortzeit (Durchschnitt)31.38sAntwortzeit (Maximum)119.29sAntwortzeit (Gesamt)564.84s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 3…Ausgabe-Token: 17,635Denk-Token: 162,668Antwortzeit: Durchschn. 31.38s · Gesamt 564.84s · Max. 119.29s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.75sAntwortzeit (Maximum)18.03sAntwortzeit (Gesamt)39.01s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)70.98sAntwortzeit (Maximum)70.98sAntwortzeit (Gesamt)70.98s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)107.79sAntwortzeit (Maximum)107.79sAntwortzeit (Gesamt)107.79s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.41sAntwortzeit (Maximum)29.79sAntwortzeit (Gesamt)46.83s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)63.40sAntwortzeit (Maximum)119.29sAntwortzeit (Gesamt)190.20s
Allgemeine Intelligenz
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)34.11sAntwortzeit (Maximum)34.11sAntwortzeit (Gesamt)34.11s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.88sAntwortzeit (Maximum)15.44sAntwortzeit (Gesamt)19.76s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.18sAntwortzeit (Maximum)31.99sAntwortzeit (Gesamt)51.55s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.60sAntwortzeit (Maximum)4.60sAntwortzeit (Gesamt)4.60s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 1…Ausgabe-Token: 1,763Denk-Token: 83,782Antwortzeit: Durchschn. 15.27s · Gesamt 259.55s · Max. 43.55s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.90sAntwortzeit (Maximum)19.37sAntwortzeit (Gesamt)39.60s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.95sAntwortzeit (Maximum)34.95sAntwortzeit (Gesamt)34.95s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.95sAntwortzeit (Maximum)15.40sAntwortzeit (Gesamt)29.90s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)29.59sAntwortzeit (Maximum)43.55sAntwortzeit (Gesamt)88.77s
Allgemeine Intelligenz
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)27.05sAntwortzeit (Maximum)27.05sAntwortzeit (Gesamt)27.05s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.54sAntwortzeit (Maximum)11.67sAntwortzeit (Gesamt)15.07s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.11sAntwortzeit (Maximum)7.52sAntwortzeit (Gesamt)18.34s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.87sAntwortzeit (Maximum)5.87sAntwortzeit (Gesamt)5.87s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 1…Ausgabe-Token: 65,778Denk-Token: 0Antwortzeit: Durchschn. 23.98s · Gesamt 407.72s · Max. 78.74s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.61sAntwortzeit (Maximum)38.50sAntwortzeit (Gesamt)66.46s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.94sAntwortzeit (Maximum)27.94sAntwortzeit (Gesamt)27.94s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)78.74sAntwortzeit (Maximum)78.74sAntwortzeit (Gesamt)78.74s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)5.85sAntwortzeit (Maximum)5.85sAntwortzeit (Gesamt)5.85s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)40.44sAntwortzeit (Maximum)46.32sAntwortzeit (Gesamt)121.31s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.44sAntwortzeit (Maximum)16.44sAntwortzeit (Gesamt)16.44s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.98sAntwortzeit (Maximum)22.24sAntwortzeit (Gesamt)31.97s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)13.73sAntwortzeit (Maximum)25.82sAntwortzeit (Gesamt)41.19s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.84sAntwortzeit (Maximum)17.84sAntwortzeit (Gesamt)17.84s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Antwortzeit (Durchschnitt)1.65sAntwortzeit (Maximum)3.56sAntwortzeit (Gesamt)18.20s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.8%Instabile Tests: 2…Ausgabe-Token: 1,840Denk-Token: 0Antwortzeit: Durchschn. 1.65s · Gesamt 18.20s · Max. 3.56s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.25sAntwortzeit (Maximum)1.59sAntwortzeit (Gesamt)2.49s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.59sAntwortzeit (Maximum)1.59sAntwortzeit (Gesamt)1.59s
Kombiniert
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.56sAntwortzeit (Maximum)3.56sAntwortzeit (Gesamt)3.56s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.41sAntwortzeit (Maximum)1.41sAntwortzeit (Gesamt)1.41s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)963msAntwortzeit (Maximum)963msAntwortzeit (Gesamt)963ms
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.13sAntwortzeit (Maximum)1.13sAntwortzeit (Gesamt)1.13s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.58sAntwortzeit (Maximum)1.58sAntwortzeit (Gesamt)1.58s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.06sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.12s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.35sAntwortzeit (Maximum)3.35sAntwortzeit (Gesamt)3.35s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.22sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)58.00s…
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 72.2%Instabile Tests: 0…Ausgabe-Token: 2,247Denk-Token: 8,058Antwortzeit: Durchschn. 3.22s · Gesamt 58.00s · Max. 11.91s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.12sAntwortzeit (Maximum)3.18sAntwortzeit (Gesamt)8.50s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.20sAntwortzeit (Maximum)2.20sAntwortzeit (Gesamt)2.20s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)11.91sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)11.91s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.00sAntwortzeit (Maximum)3.74sAntwortzeit (Gesamt)5.99s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)3.51sAntwortzeit (Gesamt)7.07s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.54sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)1.54s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.49sAntwortzeit (Maximum)1.66sAntwortzeit (Gesamt)2.99s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.76sAntwortzeit (Maximum)5.08sAntwortzeit (Gesamt)8.27s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.54sAntwortzeit (Maximum)9.54sAntwortzeit (Gesamt)9.54s
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 3…Ausgabe-Token: 2,735Denk-Token: 52,571Antwortzeit: Durchschn. 16.17s · Gesamt 291.09s · Max. 84.22s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.95sAntwortzeit (Maximum)5.12sAntwortzeit (Gesamt)11.80s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)32.58sAntwortzeit (Maximum)32.58sAntwortzeit (Gesamt)32.58s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)53.36sAntwortzeit (Maximum)53.36sAntwortzeit (Gesamt)53.36s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)18.81sAntwortzeit (Maximum)20.29sAntwortzeit (Gesamt)37.61s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Antwortzeit (Durchschnitt)37.87sAntwortzeit (Maximum)84.22sAntwortzeit (Gesamt)113.60s
Allgemeine Intelligenz
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.27sAntwortzeit (Maximum)4.27sAntwortzeit (Gesamt)4.27s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.77sAntwortzeit (Maximum)3.21sAntwortzeit (Gesamt)5.54s
Rätsellösen
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)5.16sAntwortzeit (Maximum)9.12sAntwortzeit (Gesamt)15.47s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.87sAntwortzeit (Maximum)16.87sAntwortzeit (Gesamt)16.87s
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.8%Instabile Tests: 3…Ausgabe-Token: 2,360Denk-Token: 38,320Antwortzeit: Durchschn. 12.27s · Gesamt 208.56s · Max. 64.71s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.06sAntwortzeit (Maximum)4.70sAntwortzeit (Gesamt)12.23s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)52.12sAntwortzeit (Maximum)52.12sAntwortzeit (Gesamt)52.12s
Kombiniert
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)64.71sAntwortzeit (Maximum)64.71sAntwortzeit (Gesamt)64.71s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)17.20sAntwortzeit (Maximum)17.44sAntwortzeit (Gesamt)34.40s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)6.00sAntwortzeit (Maximum)6.14sAntwortzeit (Gesamt)12.01s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.06sAntwortzeit (Maximum)4.06sAntwortzeit (Gesamt)4.06s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.36sAntwortzeit (Maximum)4.35sAntwortzeit (Gesamt)6.72s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.19sAntwortzeit (Maximum)8.19sAntwortzeit (Gesamt)8.19s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 1…Ausgabe-Token: 65,057Denk-Token: 0Antwortzeit: Durchschn. 14.63s · Gesamt 248.72s · Max. 46.04s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.59sAntwortzeit (Maximum)10.20sAntwortzeit (Gesamt)26.37s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.37sAntwortzeit (Maximum)31.37sAntwortzeit (Gesamt)31.37s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.04sAntwortzeit (Maximum)46.04sAntwortzeit (Gesamt)46.04s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)5.25sAntwortzeit (Maximum)5.25sAntwortzeit (Gesamt)5.25s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)22.30sAntwortzeit (Maximum)30.51sAntwortzeit (Gesamt)66.90s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.84sAntwortzeit (Maximum)16.84sAntwortzeit (Gesamt)16.84s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.16sAntwortzeit (Maximum)7.72sAntwortzeit (Gesamt)12.31s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)9.55sAntwortzeit (Maximum)14.35sAntwortzeit (Gesamt)28.64s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.02sAntwortzeit (Maximum)15.02sAntwortzeit (Gesamt)15.02s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 2…Ausgabe-Token: 15,928Denk-Token: 44,631Antwortzeit: Durchschn. 25.03s · Gesamt 425.48s · Max. 147.47s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.20sAntwortzeit (Maximum)9.64sAntwortzeit (Gesamt)24.78s
Programmierung
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)147.47sAntwortzeit (Maximum)147.47sAntwortzeit (Gesamt)147.47s
Kombiniert
: 9.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)73.55sAntwortzeit (Maximum)73.55sAntwortzeit (Gesamt)73.55s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.51sAntwortzeit (Maximum)20.57sAntwortzeit (Gesamt)33.02s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)23.62sAntwortzeit (Maximum)27.00sAntwortzeit (Gesamt)47.23s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)29.76sAntwortzeit (Maximum)29.76sAntwortzeit (Gesamt)29.76s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.54sAntwortzeit (Maximum)21.25sAntwortzeit (Gesamt)35.08s
Rätsellösen
: 7.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)8.52sAntwortzeit (Maximum)12.73sAntwortzeit (Gesamt)25.56s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.01sAntwortzeit (Maximum)9.01sAntwortzeit (Gesamt)9.01s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Falsche Antwort: 3Antwortzeit (Durchschnitt)9.81sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)176.62s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 2…Ausgabe-Token: 1,568Denk-Token: 91,909Antwortzeit: Durchschn. 9.81s · Gesamt 176.62s · Max. 31.36s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.16sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)12.65s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.36sAntwortzeit (Maximum)31.36sAntwortzeit (Gesamt)31.36s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.93sAntwortzeit (Maximum)20.93sAntwortzeit (Gesamt)20.93s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.01sAntwortzeit (Maximum)4.27sAntwortzeit (Gesamt)8.02s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)21.33sAntwortzeit (Maximum)24.21sAntwortzeit (Gesamt)64.00s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.78sAntwortzeit (Maximum)5.78sAntwortzeit (Gesamt)5.78s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.97sAntwortzeit (Maximum)6.05sAntwortzeit (Gesamt)9.94s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.85sAntwortzeit (Maximum)4.53sAntwortzeit (Gesamt)11.55s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.39sAntwortzeit (Maximum)12.39sAntwortzeit (Gesamt)12.39s
Gesamttests: 18Falsche Tests: 5Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 1…Ausgabe-Token: 42,068Denk-Token: 26,784Antwortzeit: Durchschn. 12.66s · Gesamt 126.62s · Max. 46.35s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)35.76sAntwortzeit (Maximum)35.76sAntwortzeit (Gesamt)35.76s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.35sAntwortzeit (Maximum)46.35sAntwortzeit (Gesamt)46.35s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.90sAntwortzeit (Maximum)13.90sAntwortzeit (Gesamt)13.90s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.94sAntwortzeit (Maximum)4.94sAntwortzeit (Gesamt)4.94s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.61sAntwortzeit (Maximum)2.61sAntwortzeit (Gesamt)2.61s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.80sAntwortzeit (Maximum)5.22sAntwortzeit (Gesamt)9.60s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.48sAntwortzeit (Maximum)7.48sAntwortzeit (Gesamt)7.48s
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 4…Ausgabe-Token: 7,554Denk-Token: 45,588Antwortzeit: Durchschn. 43.49s · Gesamt 782.73s · Max. 180.92s
Anti-KI-Tricks
: 8.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)30.72sAntwortzeit (Maximum)44.23sAntwortzeit (Gesamt)122.88s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)180.92sAntwortzeit (Maximum)180.92sAntwortzeit (Gesamt)180.92s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)93.11sAntwortzeit (Maximum)93.11sAntwortzeit (Gesamt)93.11s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)36.09sAntwortzeit (Maximum)39.12sAntwortzeit (Gesamt)72.18s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)21.78sAntwortzeit (Maximum)30.66sAntwortzeit (Gesamt)65.35s
Allgemeine Intelligenz
: 5.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)31.30sAntwortzeit (Maximum)31.30sAntwortzeit (Gesamt)31.30s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)35.78sAntwortzeit (Maximum)47.30sAntwortzeit (Gesamt)71.56s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)36.87sAntwortzeit (Maximum)59.22sAntwortzeit (Gesamt)110.62s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.81sAntwortzeit (Maximum)34.81sAntwortzeit (Gesamt)34.81s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.84sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)123.17s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 3…Ausgabe-Token: 17,346Denk-Token: 0Antwortzeit: Durchschn. 6.84s · Gesamt 123.17s · Max. 38.52s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.40sAntwortzeit (Maximum)4.78sAntwortzeit (Gesamt)13.59s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.97sAntwortzeit (Maximum)8.97sAntwortzeit (Gesamt)8.97s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.12sAntwortzeit (Maximum)9.12sAntwortzeit (Gesamt)9.12s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.05sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)6.10s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)53.33s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20s
Befolgung von Anweisungen
: 7.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.46sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.92s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.42sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)13.27s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.68sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)4.68s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)23.42s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 1…Ausgabe-Token: 5,361Denk-Token: 0Antwortzeit: Durchschn. 1.30s · Gesamt 23.42s · Max. 3.39s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.47sAntwortzeit (Maximum)1.47sAntwortzeit (Gesamt)1.47s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.22sAntwortzeit (Maximum)1.33sAntwortzeit (Gesamt)2.44s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)942msAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)2.83s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)741msAntwortzeit (Maximum)741msAntwortzeit (Gesamt)741ms
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.13sAntwortzeit (Maximum)1.14sAntwortzeit (Gesamt)2.27s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)972msAntwortzeit (Maximum)1.13sAntwortzeit (Gesamt)2.92s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.39sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)3.39s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Falsche Antwort: 3Antwortzeit (Durchschnitt)26.78sAntwortzeit (Maximum)170.45sAntwortzeit (Gesamt)294.58s…
Gesamttests: 17Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.6%Instabile Tests: 2…Ausgabe-Token: 71,904Denk-Token: 155,607Antwortzeit: Durchschn. 26.78s · Gesamt 294.58s · Max. 170.45s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.56sAntwortzeit (Maximum)32.30sAntwortzeit (Gesamt)40.68s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)29.57sAntwortzeit (Maximum)29.57sAntwortzeit (Gesamt)29.57s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.01sAntwortzeit (Maximum)15.01sAntwortzeit (Gesamt)15.01s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)170.45sAntwortzeit (Maximum)170.45sAntwortzeit (Gesamt)170.45s
Allgemeine Intelligenz
: 5.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.54sAntwortzeit (Maximum)6.54sAntwortzeit (Gesamt)6.54s
Befolgung von Anweisungen
: 8.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.98sAntwortzeit (Maximum)4.98sAntwortzeit (Gesamt)4.98s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)10.60sAntwortzeit (Gesamt)15.44s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.91sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)11.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)47.47sAntwortzeit (Maximum)255.28sAntwortzeit (Gesamt)854.45s…
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 79.6%Instabile Tests: 5…Ausgabe-Token: 1,757Denk-Token: 55,907Antwortzeit: Durchschn. 47.47s · Gesamt 854.45s · Max. 255.28s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)28.51sAntwortzeit (Maximum)39.73sAntwortzeit (Gesamt)114.05s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)62.48sAntwortzeit (Maximum)62.48sAntwortzeit (Gesamt)62.48s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.57sAntwortzeit (Maximum)76.57sAntwortzeit (Gesamt)76.57s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.03sAntwortzeit (Maximum)30.49sAntwortzeit (Gesamt)56.07s
Domänenspezifisch
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)112.69sAntwortzeit (Maximum)255.28sAntwortzeit (Gesamt)338.07s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)25.15sAntwortzeit (Maximum)25.15sAntwortzeit (Gesamt)25.15s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.36sAntwortzeit (Maximum)19.53sAntwortzeit (Gesamt)30.73s
Rätsellösen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)25.53sAntwortzeit (Maximum)32.37sAntwortzeit (Gesamt)76.60s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)74.73sAntwortzeit (Maximum)74.73sAntwortzeit (Gesamt)74.73s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 77.8%Instabile Tests: 6…Ausgabe-Token: 2,351Denk-Token: 58,941Antwortzeit: Durchschn. 14.96s · Gesamt 269.32s · Max. 67.08s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.78sAntwortzeit (Maximum)13.78sAntwortzeit (Gesamt)13.78s
Kombiniert
: 6.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)15.06sAntwortzeit (Maximum)15.06sAntwortzeit (Gesamt)15.06s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.60sAntwortzeit (Maximum)9.92sAntwortzeit (Gesamt)19.19s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)38.15sAntwortzeit (Maximum)67.08sAntwortzeit (Gesamt)114.45s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.09sAntwortzeit (Maximum)11.09sAntwortzeit (Gesamt)11.09s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.74sAntwortzeit (Maximum)5.23sAntwortzeit (Gesamt)7.47s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)10.91sAntwortzeit (Maximum)18.97sAntwortzeit (Gesamt)32.74s
Werkzeugaufrufe
: 7.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)12.53sAntwortzeit (Maximum)12.53sAntwortzeit (Gesamt)12.53s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 81.5%Instabile Tests: 6…Ausgabe-Token: 2,073Denk-Token: 191,899Antwortzeit: Durchschn. 66.72s · Gesamt 1201.03s · Max. 234.29s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)59.11sAntwortzeit (Maximum)168.31sAntwortzeit (Gesamt)236.44s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)45.75sAntwortzeit (Maximum)45.75sAntwortzeit (Gesamt)45.75s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)17.78sAntwortzeit (Gesamt)17.78s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)56.99sAntwortzeit (Maximum)80.14sAntwortzeit (Gesamt)113.98s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)146.50sAntwortzeit (Maximum)234.29sAntwortzeit (Gesamt)439.49s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)40.05sAntwortzeit (Maximum)40.05sAntwortzeit (Gesamt)40.05s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)63.49sAntwortzeit (Maximum)111.61sAntwortzeit (Gesamt)126.98s
Rätsellösen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Antwortzeit (Durchschnitt)56.74sAntwortzeit (Maximum)115.01sAntwortzeit (Gesamt)170.23s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.33sAntwortzeit (Maximum)10.33sAntwortzeit (Gesamt)10.33s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Zeitüberschreitung: 2API-Fehler: 1Antwortzeit (Durchschnitt)24.13sAntwortzeit (Maximum)118.52sAntwortzeit (Gesamt)410.25s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 75.9%Instabile Tests: 3…Ausgabe-Token: 8,005Denk-Token: 49,090Antwortzeit: Durchschn. 24.13s · Gesamt 410.25s · Max. 118.52s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.31sAntwortzeit (Maximum)14.20sAntwortzeit (Gesamt)33.24s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)118.52sAntwortzeit (Maximum)118.52sAntwortzeit (Gesamt)118.52s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.11sAntwortzeit (Maximum)43.11sAntwortzeit (Gesamt)43.11s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.33sAntwortzeit (Maximum)9.40sAntwortzeit (Gesamt)18.66s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)29.77sAntwortzeit (Maximum)32.22sAntwortzeit (Gesamt)89.30s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.95sAntwortzeit (Maximum)20.95sAntwortzeit (Gesamt)20.95s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.47sAntwortzeit (Maximum)10.16sAntwortzeit (Gesamt)14.94s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)23.85sAntwortzeit (Maximum)33.09sAntwortzeit (Gesamt)71.54s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 3…Ausgabe-Token: 2,840Denk-Token: 116,242Antwortzeit: Durchschn. 13.71s · Gesamt 246.73s · Max. 86.93s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.98sAntwortzeit (Maximum)3.76sAntwortzeit (Gesamt)7.92s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.48sAntwortzeit (Maximum)31.48sAntwortzeit (Gesamt)31.48s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.86sAntwortzeit (Maximum)16.86sAntwortzeit (Gesamt)16.86s
Allgemeine Intelligenz
: 3.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.55sAntwortzeit (Maximum)1.55sAntwortzeit (Gesamt)1.55s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.80sAntwortzeit (Maximum)1.81sAntwortzeit (Gesamt)3.60s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)20.60sAntwortzeit (Maximum)57.93sAntwortzeit (Gesamt)61.79s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.29sAntwortzeit (Maximum)7.29sAntwortzeit (Gesamt)7.29s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 74.1%Instabile Tests: 4…Ausgabe-Token: 80,759Denk-Token: 179,814Antwortzeit: Durchschn. 45.20s · Gesamt 768.37s · Max. 215.85s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)106.96sAntwortzeit (Maximum)106.96sAntwortzeit (Gesamt)106.96s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)40.96sAntwortzeit (Maximum)40.96sAntwortzeit (Gesamt)40.96s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.38sAntwortzeit (Maximum)22.88sAntwortzeit (Gesamt)40.76s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Antwortzeit (Durchschnitt)202.38sAntwortzeit (Maximum)215.85sAntwortzeit (Gesamt)404.76s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.83sAntwortzeit (Maximum)17.83sAntwortzeit (Gesamt)17.83s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.53sAntwortzeit (Maximum)19.15sAntwortzeit (Gesamt)25.06s
Rätsellösen
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)25.59sAntwortzeit (Maximum)56.89sAntwortzeit (Gesamt)76.76s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.92sAntwortzeit (Maximum)8.92sAntwortzeit (Gesamt)8.92s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 61.1%Instabile Tests: 0…Ausgabe-Token: 928Denk-Token: 72,661Antwortzeit: Durchschn. 16.76s · Gesamt 301.61s · Max. 158.78s
Anti-KI-Tricks
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.11sAntwortzeit (Maximum)3.43sAntwortzeit (Gesamt)8.43s
Programmierung
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)68.55sAntwortzeit (Maximum)68.55sAntwortzeit (Gesamt)68.55s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.29sAntwortzeit (Maximum)19.29sAntwortzeit (Gesamt)19.29s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.29sAntwortzeit (Maximum)2.62sAntwortzeit (Gesamt)4.58s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.92sAntwortzeit (Maximum)7.14sAntwortzeit (Gesamt)9.83s
Rätsellösen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)3.88sAntwortzeit (Maximum)8.21sAntwortzeit (Gesamt)11.65s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.07sAntwortzeit (Maximum)11.07sAntwortzeit (Gesamt)11.07s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.88sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)105.90s…
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 68.5%Instabile Tests: 3…Ausgabe-Token: 20,784Denk-Token: 0Antwortzeit: Durchschn. 5.88s · Gesamt 105.90s · Max. 18.33s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.32sAntwortzeit (Maximum)9.32sAntwortzeit (Gesamt)9.32s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.21sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)4.42s
Domänenspezifisch
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)13.01sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)39.04s
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.99sAntwortzeit (Maximum)1.99sAntwortzeit (Gesamt)1.99s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.29sAntwortzeit (Maximum)4.18sAntwortzeit (Gesamt)6.59s
Rätsellösen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.93sAntwortzeit (Maximum)3.05sAntwortzeit (Gesamt)8.78s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.36sAntwortzeit (Maximum)8.36sAntwortzeit (Gesamt)8.36s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 4Falsche Antwort: 2Antwortzeit (Durchschnitt)21.08sAntwortzeit (Maximum)83.40sAntwortzeit (Gesamt)231.84s…
Gesamttests: 18Falsche Tests: 6Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 2…Ausgabe-Token: 29,829Denk-Token: 18,938Antwortzeit: Durchschn. 21.08s · Gesamt 231.84s · Max. 83.40s
Anti-KI-Tricks
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Antwortzeit (Durchschnitt)7.45sAntwortzeit (Maximum)11.88sAntwortzeit (Gesamt)14.90s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.11sAntwortzeit (Maximum)23.11sAntwortzeit (Gesamt)23.11s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.66sAntwortzeit (Maximum)76.66sAntwortzeit (Gesamt)76.66s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.37sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)7.37s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.04sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)5.04s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)2.43s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.60sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)9.20s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.73sAntwortzeit (Maximum)9.73sAntwortzeit (Gesamt)9.73s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)11.21sAntwortzeit (Maximum)94.06sAntwortzeit (Gesamt)201.80s…
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 68.5%Instabile Tests: 2…Ausgabe-Token: 2,946Denk-Token: 58,132Antwortzeit: Durchschn. 11.21s · Gesamt 201.80s · Max. 94.06s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.52sAntwortzeit (Maximum)7.74sAntwortzeit (Gesamt)18.10s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.41sAntwortzeit (Maximum)13.41sAntwortzeit (Gesamt)13.41s
Kombiniert
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.13sAntwortzeit (Maximum)24.13sAntwortzeit (Gesamt)24.13s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.54sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)5.08s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)38.18sAntwortzeit (Maximum)94.06sAntwortzeit (Gesamt)114.53s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.15sAntwortzeit (Maximum)4.15sAntwortzeit (Gesamt)4.15s
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.88sAntwortzeit (Maximum)2.61sAntwortzeit (Gesamt)3.75s
Rätsellösen
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)3.65sAntwortzeit (Maximum)4.02sAntwortzeit (Gesamt)10.95s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.71sAntwortzeit (Maximum)7.71sAntwortzeit (Gesamt)7.71s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 66.7%Instabile Tests: 2…Ausgabe-Token: 2,419Denk-Token: 79,238Antwortzeit: Durchschn. 69.70s · Gesamt 1045.47s · Max. 262.83s
Anti-KI-Tricks
: 6.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)74.75sAntwortzeit (Maximum)182.10sAntwortzeit (Gesamt)298.98s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)197.31sAntwortzeit (Maximum)197.31sAntwortzeit (Gesamt)197.31s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)262.83sAntwortzeit (Maximum)262.83sAntwortzeit (Gesamt)262.83s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.27sAntwortzeit (Maximum)27.52sAntwortzeit (Gesamt)48.54s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 3Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Allgemeine Intelligenz
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)36.65sAntwortzeit (Maximum)36.65sAntwortzeit (Gesamt)36.65s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.47sAntwortzeit (Maximum)19.46sAntwortzeit (Gesamt)34.93s
Rätsellösen
: 8.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)25.85sAntwortzeit (Maximum)32.95sAntwortzeit (Gesamt)77.55s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)88.68sAntwortzeit (Maximum)88.68sAntwortzeit (Gesamt)88.68s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 72.2%Instabile Tests: 4…Ausgabe-Token: 2,705Denk-Token: 18,977Antwortzeit: Durchschn. 14.04s · Gesamt 154.41s · Max. 77.80s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.12sAntwortzeit (Maximum)15.12sAntwortzeit (Gesamt)15.12s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.06sAntwortzeit (Maximum)14.06sAntwortzeit (Gesamt)14.06s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.15sAntwortzeit (Maximum)3.15sAntwortzeit (Gesamt)3.15s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)77.80sAntwortzeit (Maximum)77.80sAntwortzeit (Gesamt)77.80s
Allgemeine Intelligenz
: 3.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.32sAntwortzeit (Maximum)4.32sAntwortzeit (Gesamt)4.32s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.12sAntwortzeit (Maximum)3.12sAntwortzeit (Gesamt)3.12s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.47sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.94s
Werkzeugaufrufe
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)10.30sAntwortzeit (Maximum)10.30sAntwortzeit (Gesamt)10.30s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 70.4%Instabile Tests: 3…Ausgabe-Token: 12,387Denk-Token: 115,182Antwortzeit: Durchschn. 23.36s · Gesamt 280.34s · Max. 96.01s
Anti-KI-Tricks
: 8.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)15.85sAntwortzeit (Maximum)20.83sAntwortzeit (Gesamt)47.55s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)13.03sAntwortzeit (Maximum)13.03sAntwortzeit (Gesamt)13.03s
Kombiniert
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)75.68sAntwortzeit (Maximum)75.68sAntwortzeit (Gesamt)75.68s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)96.01sAntwortzeit (Maximum)96.01sAntwortzeit (Gesamt)96.01s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.20sAntwortzeit (Maximum)4.20sAntwortzeit (Gesamt)4.20s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.28sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)8.55s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.77sAntwortzeit (Maximum)5.26sAntwortzeit (Gesamt)7.55s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.78sAntwortzeit (Maximum)27.78sAntwortzeit (Gesamt)27.78s
Gesamttests: 18Falsche Tests: 7Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 64.8%Instabile Tests: 1…Ausgabe-Token: 7,433Denk-Token: 0Antwortzeit: Durchschn. 4.98s · Gesamt 54.83s · Max. 23.84s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.67sAntwortzeit (Maximum)3.67sAntwortzeit (Gesamt)3.67s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.84sAntwortzeit (Maximum)23.84sAntwortzeit (Gesamt)23.84s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.43sAntwortzeit (Maximum)3.43sAntwortzeit (Gesamt)3.43s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.56sAntwortzeit (Maximum)2.56sAntwortzeit (Gesamt)2.56s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.96sAntwortzeit (Maximum)1.96sAntwortzeit (Gesamt)1.96s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)2.92sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)5.84s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.11sAntwortzeit (Maximum)4.11sAntwortzeit (Gesamt)4.11s