Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 51.9%Instabile Tests: 1…Ausgabe-Token: 1,611Denk-Token: 0Antwortzeit: Durchschn. 23.34s · Gesamt 420.04s · Max. 109.46s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)36.12sAntwortzeit (Maximum)109.46sAntwortzeit (Gesamt)144.50s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)33.40sAntwortzeit (Maximum)33.40sAntwortzeit (Gesamt)33.40s
Kombiniert
: 9.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.55sAntwortzeit (Maximum)34.55sAntwortzeit (Gesamt)34.55s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)54.04sAntwortzeit (Maximum)105.46sAntwortzeit (Gesamt)108.08s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.08sAntwortzeit (Maximum)6.59sAntwortzeit (Gesamt)9.24s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.06sAntwortzeit (Maximum)6.06sAntwortzeit (Gesamt)6.06s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.47sAntwortzeit (Maximum)13.43sAntwortzeit (Gesamt)18.95s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.47sAntwortzeit (Maximum)6.47sAntwortzeit (Gesamt)6.47s
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 64.8%Instabile Tests: 6…Ausgabe-Token: 2,010Denk-Token: 91,298Antwortzeit: Durchschn. 23.88s · Gesamt 262.66s · Max. 121.79s
Anti-KI-Tricks
: 8.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)5.65sAntwortzeit (Gesamt)7.62s
Programmierung
: 2.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)23.58sAntwortzeit (Maximum)23.58sAntwortzeit (Gesamt)23.58s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)37.64sAntwortzeit (Maximum)37.64sAntwortzeit (Gesamt)37.64s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63s
Domänenspezifisch
: 5.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)121.79sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)121.79s
Allgemeine Intelligenz
: 4.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.25sAntwortzeit (Maximum)16.25sAntwortzeit (Gesamt)16.25s
Befolgung von Anweisungen
: 6.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.30sAntwortzeit (Maximum)5.30sAntwortzeit (Gesamt)5.30s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)8.08sAntwortzeit (Maximum)8.38sAntwortzeit (Gesamt)16.17s
Werkzeugaufrufe
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)27.71sAntwortzeit (Maximum)27.71sAntwortzeit (Gesamt)27.71s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Antwortzeit (Durchschnitt)4.23sAntwortzeit (Maximum)11.07sAntwortzeit (Gesamt)46.51s…
Gesamttests: 18Falsche Tests: 9Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 51.9%Instabile Tests: 1…Ausgabe-Token: 1,959Denk-Token: 0Antwortzeit: Durchschn. 4.23s · Gesamt 46.51s · Max. 11.07s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.37sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)4.75s
Programmierung
: 5.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.84sAntwortzeit (Maximum)8.84sAntwortzeit (Gesamt)8.84s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.98sAntwortzeit (Maximum)4.98sAntwortzeit (Gesamt)4.98s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.78sAntwortzeit (Maximum)5.78sAntwortzeit (Gesamt)5.78s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.24sAntwortzeit (Maximum)2.24sAntwortzeit (Gesamt)2.24s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.27sAntwortzeit (Maximum)3.27sAntwortzeit (Gesamt)3.27s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.48sAntwortzeit (Maximum)1.48sAntwortzeit (Gesamt)1.48s
Rätsellösen
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.05sAntwortzeit (Maximum)2.08sAntwortzeit (Gesamt)4.10s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.07sAntwortzeit (Maximum)11.07sAntwortzeit (Gesamt)11.07s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 6Anweisungen nicht befolgt: 4Antwortzeit (Durchschnitt)2.21sAntwortzeit (Maximum)14.63sAntwortzeit (Gesamt)37.51s…
Gesamttests: 18Falsche Tests: 10Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 53.7%Instabile Tests: 3…Ausgabe-Token: 3,972Denk-Token: 48,333Antwortzeit: Durchschn. 2.21s · Gesamt 37.51s · Max. 14.63s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.53sAntwortzeit (Maximum)1.53sAntwortzeit (Gesamt)1.53s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.28sAntwortzeit (Maximum)3.28sAntwortzeit (Gesamt)3.28s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.11sAntwortzeit (Maximum)1.47sAntwortzeit (Gesamt)2.21s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.48sAntwortzeit (Maximum)14.63sAntwortzeit (Gesamt)19.43s
Allgemeine Intelligenz
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)821msAntwortzeit (Maximum)821msAntwortzeit (Gesamt)821ms
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.07sAntwortzeit (Gesamt)1.07s
Rätsellösen
: 3.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)934msAntwortzeit (Maximum)1.18sAntwortzeit (Gesamt)2.80s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.89sAntwortzeit (Maximum)1.89sAntwortzeit (Gesamt)1.89s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.99sAntwortzeit (Maximum)6.81sAntwortzeit (Gesamt)35.81s…
Gesamttests: 18Falsche Tests: 10Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 44.4%Instabile Tests: 0…Ausgabe-Token: 868Denk-Token: 0Antwortzeit: Durchschn. 1.99s · Gesamt 35.81s · Max. 6.81s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.10sAntwortzeit (Maximum)2.08sAntwortzeit (Gesamt)4.39s
Programmierung
: 6.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.72sAntwortzeit (Maximum)1.72sAntwortzeit (Gesamt)1.72s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.47sAntwortzeit (Maximum)2.47sAntwortzeit (Gesamt)2.47s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.69sAntwortzeit (Maximum)2.46sAntwortzeit (Gesamt)3.38s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.14sAntwortzeit (Maximum)1.63sAntwortzeit (Gesamt)3.41s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)1.19sAntwortzeit (Gesamt)1.19s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.18sAntwortzeit (Maximum)6.81sAntwortzeit (Gesamt)8.36s
Rätsellösen
: 8.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.71sAntwortzeit (Maximum)5.96sAntwortzeit (Gesamt)8.14s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.76sAntwortzeit (Maximum)2.76sAntwortzeit (Gesamt)2.76s
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 57.4%Instabile Tests: 6…Ausgabe-Token: 299,034Denk-Token: 309,670Antwortzeit: Durchschn. 9.80s · Gesamt 156.75s · Max. 35.28s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.11sAntwortzeit (Maximum)27.11sAntwortzeit (Gesamt)27.11s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.54sAntwortzeit (Maximum)7.51sAntwortzeit (Gesamt)11.08s
Allgemeine Intelligenz
: 5.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.40sAntwortzeit (Maximum)6.40sAntwortzeit (Gesamt)6.40s
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.63sAntwortzeit (Maximum)5.46sAntwortzeit (Gesamt)9.26s
Rätsellösen
: 7.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.01sAntwortzeit (Maximum)5.49sAntwortzeit (Gesamt)15.03s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 59.3%Instabile Tests: 8…Ausgabe-Token: 4,980Denk-Token: 156,288Antwortzeit: Durchschn. 44.13s · Gesamt 485.47s · Max. 204.02s
Anti-KI-Tricks
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)25.50sAntwortzeit (Maximum)37.73sAntwortzeit (Gesamt)51.00s
Programmierung
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)40.73sAntwortzeit (Maximum)40.73sAntwortzeit (Gesamt)40.73s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)65.96sAntwortzeit (Maximum)65.96sAntwortzeit (Gesamt)65.96s
Datenanalyse und -extraktion
: 3.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)21.42sAntwortzeit (Maximum)21.42sAntwortzeit (Gesamt)21.42s
Domänenspezifisch
: 5.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)204.02sAntwortzeit (Maximum)204.02sAntwortzeit (Gesamt)204.02s
Allgemeine Intelligenz
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)17.51sAntwortzeit (Maximum)17.51sAntwortzeit (Gesamt)17.51s
Befolgung von Anweisungen
: 8.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)11.90sAntwortzeit (Maximum)11.90sAntwortzeit (Gesamt)11.90s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)19.81sAntwortzeit (Maximum)21.31sAntwortzeit (Gesamt)39.63s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)33.30sAntwortzeit (Maximum)33.30sAntwortzeit (Gesamt)33.30s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.10sAntwortzeit (Maximum)6.51sAntwortzeit (Gesamt)55.87s…
Gesamttests: 18Falsche Tests: 10Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 44.4%Instabile Tests: 0…Ausgabe-Token: 1,724Denk-Token: 0Antwortzeit: Durchschn. 3.10s · Gesamt 55.87s · Max. 6.51s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)3.13sAntwortzeit (Maximum)5.90sAntwortzeit (Gesamt)12.50s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.30sAntwortzeit (Maximum)5.30sAntwortzeit (Gesamt)5.30s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.51sAntwortzeit (Maximum)6.51sAntwortzeit (Gesamt)6.51s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)5.69sAntwortzeit (Gesamt)7.62s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.09sAntwortzeit (Maximum)2.39sAntwortzeit (Gesamt)6.26s
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.22sAntwortzeit (Maximum)2.22sAntwortzeit (Gesamt)2.22s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.97sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)3.93s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)2.22sAntwortzeit (Maximum)3.81sAntwortzeit (Gesamt)6.67s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.86sAntwortzeit (Maximum)4.86sAntwortzeit (Gesamt)4.86s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.25sAntwortzeit (Maximum)13.73sAntwortzeit (Gesamt)58.44s…
Gesamttests: 18Falsche Tests: 10Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 46.3%Instabile Tests: 1…Ausgabe-Token: 4,266Denk-Token: 0Antwortzeit: Durchschn. 3.25s · Gesamt 58.44s · Max. 13.73s
Anti-KI-Tricks
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.32sAntwortzeit (Maximum)3.89sAntwortzeit (Gesamt)5.30s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.29sAntwortzeit (Maximum)1.29sAntwortzeit (Gesamt)1.29s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.22sAntwortzeit (Maximum)6.22sAntwortzeit (Gesamt)6.22s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.57sAntwortzeit (Maximum)1.83sAntwortzeit (Gesamt)3.14s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)905msAntwortzeit (Maximum)1.10sAntwortzeit (Gesamt)2.71s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)803msAntwortzeit (Maximum)803msAntwortzeit (Gesamt)803ms
Befolgung von Anweisungen
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.81sAntwortzeit (Maximum)13.73sAntwortzeit (Gesamt)17.61s
Rätsellösen
: 3.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.90sAntwortzeit (Maximum)12.19sAntwortzeit (Gesamt)17.69s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.67sAntwortzeit (Maximum)3.67sAntwortzeit (Gesamt)3.67s
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 48.2%Instabile Tests: 3…Ausgabe-Token: 1,783Denk-Token: 0Antwortzeit: Durchschn. 6.59s · Gesamt 118.61s · Max. 57.10s
Anti-KI-Tricks
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.28sAntwortzeit (Maximum)2.09sAntwortzeit (Gesamt)5.13s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)7.07sAntwortzeit (Maximum)7.07sAntwortzeit (Gesamt)7.07s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)30.53sAntwortzeit (Maximum)30.53sAntwortzeit (Gesamt)30.53s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.70sAntwortzeit (Maximum)2.21sAntwortzeit (Gesamt)3.41s
Domänenspezifisch
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.49sAntwortzeit (Maximum)4.23sAntwortzeit (Gesamt)7.48s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
Rätsellösen
: 5.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)739msAntwortzeit (Maximum)972msAntwortzeit (Gesamt)2.22s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)57.10sAntwortzeit (Maximum)57.10sAntwortzeit (Gesamt)57.10s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Antwortzeit (Durchschnitt)2.53sAntwortzeit (Maximum)6.70sAntwortzeit (Gesamt)45.46s…
Gesamttests: 18Falsche Tests: 10Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 55.6%Instabile Tests: 5…Ausgabe-Token: 3,129Denk-Token: 0Antwortzeit: Durchschn. 2.53s · Gesamt 45.46s · Max. 6.70s
Anti-KI-Tricks
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)6.70sAntwortzeit (Gesamt)9.73s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.61sAntwortzeit (Maximum)4.61sAntwortzeit (Gesamt)4.61s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.59sAntwortzeit (Maximum)6.59sAntwortzeit (Gesamt)6.59s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.82sAntwortzeit (Maximum)1.97sAntwortzeit (Gesamt)3.63s
Domänenspezifisch
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.33sAntwortzeit (Maximum)1.53sAntwortzeit (Gesamt)4.00s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.45sAntwortzeit (Maximum)3.45sAntwortzeit (Gesamt)3.45s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.06sAntwortzeit (Maximum)1.09sAntwortzeit (Gesamt)2.12s
Rätsellösen
: 5.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.46sAntwortzeit (Maximum)4.23sAntwortzeit (Gesamt)7.37s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.94sAntwortzeit (Maximum)3.94sAntwortzeit (Gesamt)3.94s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)903msAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)16.26s…
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 44.4%Instabile Tests: 2…Ausgabe-Token: 1,726Denk-Token: 0Antwortzeit: Durchschn. 903ms · Gesamt 16.26s · Max. 4.39s
Anti-KI-Tricks
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)582msAntwortzeit (Maximum)844msAntwortzeit (Gesamt)2.33s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.16sAntwortzeit (Maximum)1.16sAntwortzeit (Gesamt)1.16s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.39sAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)4.39s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)652msAntwortzeit (Maximum)660msAntwortzeit (Gesamt)1.30s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)495msAntwortzeit (Maximum)642msAntwortzeit (Gesamt)1.49s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)615msAntwortzeit (Maximum)615msAntwortzeit (Gesamt)615ms
Befolgung von Anweisungen
: 8.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)672msAntwortzeit (Maximum)785msAntwortzeit (Gesamt)1.34s
Rätsellösen
: 5.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)576msAntwortzeit (Maximum)700msAntwortzeit (Gesamt)1.73s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.91sAntwortzeit (Maximum)1.91sAntwortzeit (Gesamt)1.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.82sAntwortzeit (Maximum)47.43sAntwortzeit (Gesamt)68.74s…
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 50.0%Instabile Tests: 3…Ausgabe-Token: 4,300Denk-Token: 0Antwortzeit: Durchschn. 3.82s · Gesamt 68.74s · Max. 47.43s
Anti-KI-Tricks
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.43sAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)5.71s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.67sAntwortzeit (Maximum)2.67sAntwortzeit (Gesamt)2.67s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)47.43sAntwortzeit (Maximum)47.43sAntwortzeit (Gesamt)47.43s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.16sAntwortzeit (Maximum)1.42sAntwortzeit (Gesamt)2.33s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)485msAntwortzeit (Maximum)549msAntwortzeit (Gesamt)1.45s
Allgemeine Intelligenz
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)1.19sAntwortzeit (Gesamt)1.19s
Befolgung von Anweisungen
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)809msAntwortzeit (Maximum)983msAntwortzeit (Gesamt)1.62s
Rätsellösen
: 3.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.34sAntwortzeit (Maximum)2.25sAntwortzeit (Gesamt)4.03s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.30sAntwortzeit (Maximum)2.30sAntwortzeit (Gesamt)2.30s
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 46.3%Instabile Tests: 3…Ausgabe-Token: 8,378Denk-Token: 0Antwortzeit: Durchschn. 12.07s · Gesamt 217.28s · Max. 115.89s
Programmierung
: 2.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.63sAntwortzeit (Maximum)7.63sAntwortzeit (Gesamt)7.63s
Kombiniert
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)115.89sAntwortzeit (Maximum)115.89sAntwortzeit (Gesamt)115.89s
Datenanalyse und -extraktion
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.42sAntwortzeit (Maximum)16.20sAntwortzeit (Gesamt)18.84s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.52sAntwortzeit (Maximum)1.77sAntwortzeit (Gesamt)4.55s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86s
Befolgung von Anweisungen
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.52sAntwortzeit (Maximum)1.99sAntwortzeit (Gesamt)3.04s
Rätsellösen
: 8.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.37sAntwortzeit (Maximum)10.78sAntwortzeit (Gesamt)22.10s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.85sAntwortzeit (Maximum)11.85sAntwortzeit (Gesamt)11.85s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)2.39sAntwortzeit (Maximum)6.58sAntwortzeit (Gesamt)43.06s…
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 48.2%Instabile Tests: 3…Ausgabe-Token: 2,320Denk-Token: 0Antwortzeit: Durchschn. 2.39s · Gesamt 43.06s · Max. 6.58s
Anti-KI-Tricks
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.80sAntwortzeit (Maximum)2.62sAntwortzeit (Gesamt)7.19s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.82sAntwortzeit (Maximum)3.82sAntwortzeit (Gesamt)3.82s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.58sAntwortzeit (Maximum)6.58sAntwortzeit (Gesamt)6.58s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.39sAntwortzeit (Maximum)1.42sAntwortzeit (Gesamt)2.78s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.78sAntwortzeit (Maximum)2.49sAntwortzeit (Gesamt)5.34s
Allgemeine Intelligenz
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.44sAntwortzeit (Maximum)2.44sAntwortzeit (Gesamt)2.44s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.95sAntwortzeit (Gesamt)5.02s
Rätsellösen
: 6.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.83sAntwortzeit (Maximum)2.15sAntwortzeit (Gesamt)5.50s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.39sAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)4.39s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.51sAntwortzeit (Maximum)2.95sAntwortzeit (Gesamt)27.21s…
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 42.6%Instabile Tests: 2…Ausgabe-Token: 2,317Denk-Token: 0Antwortzeit: Durchschn. 1.51s · Gesamt 27.21s · Max. 2.95s
Anti-KI-Tricks
: 3.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.21sAntwortzeit (Maximum)2.58sAntwortzeit (Gesamt)4.85s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.95sAntwortzeit (Maximum)2.95sAntwortzeit (Gesamt)2.95s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.89sAntwortzeit (Maximum)2.89sAntwortzeit (Gesamt)2.89s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.04sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.08s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)3.22s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.78sAntwortzeit (Maximum)1.78sAntwortzeit (Gesamt)1.78s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.17sAntwortzeit (Gesamt)2.15s
Rätsellösen
: 5.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.52sAntwortzeit (Maximum)1.82sAntwortzeit (Gesamt)4.56s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.75sAntwortzeit (Maximum)2.75sAntwortzeit (Gesamt)2.75s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.74sAntwortzeit (Maximum)9.39sAntwortzeit (Gesamt)31.32s…
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 38.9%Instabile Tests: 2…Ausgabe-Token: 3,545Denk-Token: 0Antwortzeit: Durchschn. 1.74s · Gesamt 31.32s · Max. 9.39s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)788msAntwortzeit (Maximum)1.34sAntwortzeit (Gesamt)3.15s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.51sAntwortzeit (Gesamt)2.51s
Kombiniert
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.39sAntwortzeit (Maximum)9.39sAntwortzeit (Gesamt)9.39s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.43sAntwortzeit (Maximum)1.45sAntwortzeit (Gesamt)2.86s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)540msAntwortzeit (Maximum)649msAntwortzeit (Gesamt)1.62s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.51sAntwortzeit (Gesamt)2.51s
Befolgung von Anweisungen
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)815msAntwortzeit (Maximum)973msAntwortzeit (Gesamt)1.63s
Rätsellösen
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.37sAntwortzeit (Maximum)2.23sAntwortzeit (Gesamt)4.12s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7Anweisungen nicht befolgt: 4Antwortzeit (Durchschnitt)16.08sAntwortzeit (Maximum)50.92sAntwortzeit (Gesamt)176.88s…
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 51.9%Instabile Tests: 6…Ausgabe-Token: 13,493Denk-Token: 36,879Antwortzeit: Durchschn. 16.08s · Gesamt 176.88s · Max. 50.92s
Programmierung
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)26.33sAntwortzeit (Maximum)26.33sAntwortzeit (Gesamt)26.33s
Kombiniert
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.18sAntwortzeit (Maximum)31.18sAntwortzeit (Gesamt)31.18s
Datenanalyse und -extraktion
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.98sAntwortzeit (Maximum)1.98sAntwortzeit (Gesamt)1.98s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)50.92sAntwortzeit (Maximum)50.92sAntwortzeit (Gesamt)50.92s
Allgemeine Intelligenz
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.90sAntwortzeit (Maximum)7.90sAntwortzeit (Gesamt)7.90s
Befolgung von Anweisungen
: 9.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.63sAntwortzeit (Maximum)7.63sAntwortzeit (Gesamt)7.63s
Rätsellösen
: 3.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)11.80sAntwortzeit (Maximum)12.60sAntwortzeit (Gesamt)23.61s
Werkzeugaufrufe
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.91sAntwortzeit (Maximum)6.91sAntwortzeit (Gesamt)6.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)2.05sAntwortzeit (Maximum)6.65sAntwortzeit (Gesamt)36.93s…
Gesamttests: 18Falsche Tests: 11Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 42.6%Instabile Tests: 2…Ausgabe-Token: 2,973Denk-Token: 0Antwortzeit: Durchschn. 2.05s · Gesamt 36.93s · Max. 6.65s
Anti-KI-Tricks
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.39sAntwortzeit (Maximum)2.96sAntwortzeit (Gesamt)5.56s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.65sAntwortzeit (Maximum)6.65sAntwortzeit (Gesamt)6.65s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.38sAntwortzeit (Maximum)3.38sAntwortzeit (Gesamt)3.38s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.32sAntwortzeit (Maximum)1.39sAntwortzeit (Gesamt)2.64s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.48sAntwortzeit (Maximum)1.85sAntwortzeit (Gesamt)4.45s
Allgemeine Intelligenz
: 5.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.55sAntwortzeit (Maximum)1.55sAntwortzeit (Gesamt)1.55s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.64sAntwortzeit (Maximum)1.80sAntwortzeit (Gesamt)3.28s
Rätsellösen
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)1.66sAntwortzeit (Maximum)1.81sAntwortzeit (Gesamt)4.98s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.46sAntwortzeit (Maximum)4.46sAntwortzeit (Gesamt)4.46s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.51sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)27.21s…
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 46.3%Instabile Tests: 4…Ausgabe-Token: 2,451Denk-Token: 0Antwortzeit: Durchschn. 1.51s · Gesamt 27.21s · Max. 3.54s
Anti-KI-Tricks
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.29sAntwortzeit (Maximum)2.83sAntwortzeit (Gesamt)5.18s
Programmierung
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.39sAntwortzeit (Maximum)2.39sAntwortzeit (Gesamt)2.39s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.32sAntwortzeit (Maximum)1.42sAntwortzeit (Gesamt)2.64s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)877msAntwortzeit (Maximum)904msAntwortzeit (Gesamt)2.63s
Allgemeine Intelligenz
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.53sAntwortzeit (Maximum)1.53sAntwortzeit (Gesamt)1.53s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.03sAntwortzeit (Maximum)1.10sAntwortzeit (Gesamt)2.06s
Rätsellösen
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.32sAntwortzeit (Maximum)1.66sAntwortzeit (Gesamt)3.95s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.30sAntwortzeit (Maximum)3.30sAntwortzeit (Gesamt)3.30s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.69sAntwortzeit (Maximum)46.00sAntwortzeit (Gesamt)66.50s…
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 38.9%Instabile Tests: 2…Ausgabe-Token: 3,341Denk-Token: 0Antwortzeit: Durchschn. 3.69s · Gesamt 66.50s · Max. 46.00s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.59sAntwortzeit (Maximum)3.60sAntwortzeit (Gesamt)6.38s
Programmierung
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.44sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)3.44s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)46.00sAntwortzeit (Maximum)46.00sAntwortzeit (Gesamt)46.00s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.01sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.02s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)465msAntwortzeit (Maximum)492msAntwortzeit (Gesamt)1.39s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.12sAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)1.12s
Befolgung von Anweisungen
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)585msAntwortzeit (Maximum)715msAntwortzeit (Gesamt)1.17s
Rätsellösen
: 5.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)982msAntwortzeit (Maximum)1.36sAntwortzeit (Gesamt)2.95s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.04sAntwortzeit (Maximum)2.04sAntwortzeit (Gesamt)2.04s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 57.4%Instabile Tests: 10…Ausgabe-Token: 107,044Denk-Token: 206,422Antwortzeit: Durchschn. 39.65s · Gesamt 396.47s · Max. 237.27s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Kombiniert
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)60.39sAntwortzeit (Maximum)60.39sAntwortzeit (Gesamt)60.39s
Datenanalyse und -extraktion
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.48sAntwortzeit (Maximum)7.48sAntwortzeit (Gesamt)7.48s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)237.27sAntwortzeit (Maximum)237.27sAntwortzeit (Gesamt)237.27s
Allgemeine Intelligenz
: 3.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63s
Befolgung von Anweisungen
: 8.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.64sAntwortzeit (Maximum)4.64sAntwortzeit (Gesamt)4.64s
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)11.54sAntwortzeit (Maximum)17.37sAntwortzeit (Gesamt)23.08s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.35sAntwortzeit (Maximum)15.35sAntwortzeit (Gesamt)15.35s
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 46.3%Instabile Tests: 4…Ausgabe-Token: 2,278Denk-Token: 0Antwortzeit: Durchschn. 4.58s · Gesamt 77.92s · Max. 15.17s
Anti-KI-Tricks
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)6.85sAntwortzeit (Gesamt)15.23s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)15.17sAntwortzeit (Maximum)15.17sAntwortzeit (Gesamt)15.17s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.49sAntwortzeit (Maximum)14.02sAntwortzeit (Gesamt)16.98s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.33sAntwortzeit (Maximum)2.94sAntwortzeit (Gesamt)6.99s
Allgemeine Intelligenz
: 6.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.71sAntwortzeit (Maximum)2.71sAntwortzeit (Gesamt)2.71s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.82sAntwortzeit (Maximum)2.92sAntwortzeit (Gesamt)5.65s
Rätsellösen
: 5.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)3.06sAntwortzeit (Maximum)3.50sAntwortzeit (Gesamt)9.19s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.02sAntwortzeit (Maximum)6.02sAntwortzeit (Gesamt)6.02s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 50.0%Instabile Tests: 7…Ausgabe-Token: 15,084Denk-Token: 39,408Antwortzeit: Durchschn. 5.64s · Gesamt 101.52s · Max. 30.49s
Anti-KI-Tricks
: 5.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.67sAntwortzeit (Maximum)5.03sAntwortzeit (Gesamt)10.66s
Programmierung
: 6.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)30.49sAntwortzeit (Maximum)30.49sAntwortzeit (Gesamt)30.49s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)25.25sAntwortzeit (Maximum)25.25sAntwortzeit (Gesamt)25.25s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)1.23sAntwortzeit (Maximum)1.96sAntwortzeit (Gesamt)2.46s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)6.11sAntwortzeit (Maximum)13.72sAntwortzeit (Gesamt)18.34s
Allgemeine Intelligenz
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.05sAntwortzeit (Maximum)2.05sAntwortzeit (Gesamt)2.05s
Befolgung von Anweisungen
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.38sAntwortzeit (Maximum)1.61sAntwortzeit (Gesamt)2.75s
Rätsellösen
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)2.00sAntwortzeit (Maximum)2.60sAntwortzeit (Gesamt)6.01s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.50sAntwortzeit (Maximum)3.50sAntwortzeit (Gesamt)3.50s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 37.0%Instabile Tests: 3…Ausgabe-Token: 2,489Denk-Token: 0Antwortzeit: Durchschn. 3.35s · Gesamt 36.90s · Max. 7.05s
Anti-KI-Tricks
: 5.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)5.51sAntwortzeit (Maximum)6.59sAntwortzeit (Gesamt)11.02s
Programmierung
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.57sAntwortzeit (Maximum)5.57sAntwortzeit (Gesamt)5.57s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)3.22sAntwortzeit (Maximum)3.22sAntwortzeit (Gesamt)3.22s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.82sAntwortzeit (Maximum)4.82sAntwortzeit (Gesamt)4.82s
Domänenspezifisch
: 7.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)744msAntwortzeit (Maximum)744msAntwortzeit (Gesamt)744ms
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.59sAntwortzeit (Maximum)1.59sAntwortzeit (Gesamt)1.59s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)888msAntwortzeit (Maximum)888msAntwortzeit (Gesamt)888ms
Rätsellösen
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)1.00sAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)2.00s
Werkzeugaufrufe
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.05sAntwortzeit (Maximum)7.05sAntwortzeit (Gesamt)7.05s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 37.0%Instabile Tests: 4…Ausgabe-Token: 3,720Denk-Token: 0Antwortzeit: Durchschn. 4.33s · Gesamt 78.02s · Max. 32.57s
Anti-KI-Tricks
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)2.11sAntwortzeit (Maximum)3.94sAntwortzeit (Gesamt)8.46s
Programmierung
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.79sAntwortzeit (Maximum)9.79sAntwortzeit (Gesamt)9.79s
Kombiniert
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)32.57sAntwortzeit (Maximum)32.57sAntwortzeit (Gesamt)32.57s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.08sAntwortzeit (Maximum)1.62sAntwortzeit (Gesamt)2.15s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.99sAntwortzeit (Maximum)3.99sAntwortzeit (Gesamt)5.98s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)790msAntwortzeit (Maximum)790msAntwortzeit (Gesamt)790ms
Befolgung von Anweisungen
: 8.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.58sAntwortzeit (Maximum)1.69sAntwortzeit (Gesamt)3.17s
Rätsellösen
: 5.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.48sAntwortzeit (Maximum)2.09sAntwortzeit (Gesamt)4.44s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.68sAntwortzeit (Maximum)10.68sAntwortzeit (Gesamt)10.68s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 12Antwortzeit (Durchschnitt)13.37sAntwortzeit (Maximum)42.13sAntwortzeit (Gesamt)147.05s…
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 40.7%Instabile Tests: 3…Ausgabe-Token: 2,659Denk-Token: 0Antwortzeit: Durchschn. 13.37s · Gesamt 147.05s · Max. 42.13s
Anti-KI-Tricks
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)6.24sAntwortzeit (Maximum)11.38sAntwortzeit (Gesamt)12.48s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)38.78sAntwortzeit (Maximum)38.78sAntwortzeit (Gesamt)38.78s
Kombiniert
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)19.16sAntwortzeit (Maximum)19.16sAntwortzeit (Gesamt)19.16s
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)42.13sAntwortzeit (Maximum)42.13sAntwortzeit (Gesamt)42.13s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)4.38sAntwortzeit (Maximum)4.38sAntwortzeit (Gesamt)4.38s
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.00sAntwortzeit (Maximum)4.00sAntwortzeit (Gesamt)4.00s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.67sAntwortzeit (Maximum)2.67sAntwortzeit (Gesamt)2.67s
Rätsellösen
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.73sAntwortzeit (Maximum)7.81sAntwortzeit (Gesamt)9.45s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.99sAntwortzeit (Maximum)13.99sAntwortzeit (Gesamt)13.99s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)2.94sAntwortzeit (Maximum)8.21sAntwortzeit (Gesamt)52.98s…
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 37.0%Instabile Tests: 2…Ausgabe-Token: 1,775Denk-Token: 0Antwortzeit: Durchschn. 2.94s · Gesamt 52.98s · Max. 8.21s
Anti-KI-Tricks
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)2.84sAntwortzeit (Maximum)4.15sAntwortzeit (Gesamt)11.35s
Programmierung
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.93sAntwortzeit (Maximum)3.93sAntwortzeit (Gesamt)3.93s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.89sAntwortzeit (Maximum)4.89sAntwortzeit (Gesamt)4.89s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.47sAntwortzeit (Maximum)2.48sAntwortzeit (Gesamt)4.95s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.97sAntwortzeit (Maximum)2.65sAntwortzeit (Gesamt)5.92s
Allgemeine Intelligenz
: 4.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.18sAntwortzeit (Maximum)2.18sAntwortzeit (Gesamt)2.18s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.13sAntwortzeit (Maximum)2.53sAntwortzeit (Gesamt)4.27s
Rätsellösen
: 5.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)2.69sAntwortzeit (Gesamt)7.28s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.21sAntwortzeit (Maximum)8.21sAntwortzeit (Gesamt)8.21s
Gesamttests: 18Falsche Tests: 12Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 35.2%Instabile Tests: 1…Ausgabe-Token: 3,338Denk-Token: 0Antwortzeit: Durchschn. 11.33s · Gesamt 203.88s · Max. 35.34s
Anti-KI-Tricks
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)12.30sAntwortzeit (Maximum)16.60sAntwortzeit (Gesamt)49.20s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.21sAntwortzeit (Maximum)11.21sAntwortzeit (Gesamt)11.21s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)35.34sAntwortzeit (Maximum)35.34sAntwortzeit (Gesamt)35.34s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.48sAntwortzeit (Maximum)12.71sAntwortzeit (Gesamt)16.96s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.94sAntwortzeit (Maximum)7.65sAntwortzeit (Gesamt)14.81s
Allgemeine Intelligenz
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)11.85sAntwortzeit (Maximum)11.85sAntwortzeit (Gesamt)11.85s
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.52sAntwortzeit (Maximum)8.19sAntwortzeit (Gesamt)11.04s
Rätsellösen
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)11.55sAntwortzeit (Maximum)17.06sAntwortzeit (Gesamt)34.66s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)18.80sAntwortzeit (Maximum)18.80sAntwortzeit (Gesamt)18.80s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.07sAntwortzeit (Maximum)39.47sAntwortzeit (Gesamt)91.23s…
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 29.6%Instabile Tests: 1…Ausgabe-Token: 1,985Denk-Token: 0Antwortzeit: Durchschn. 5.07s · Gesamt 91.23s · Max. 39.47s
Anti-KI-Tricks
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)3.02sAntwortzeit (Maximum)8.17sAntwortzeit (Gesamt)12.07s
Programmierung
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)39.47sAntwortzeit (Maximum)39.47sAntwortzeit (Gesamt)39.47s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.91sAntwortzeit (Maximum)8.91sAntwortzeit (Gesamt)8.91s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)6.52s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)877msAntwortzeit (Maximum)894msAntwortzeit (Gesamt)2.63s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86s
Rätsellösen
: 5.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.30sAntwortzeit (Maximum)4.81sAntwortzeit (Gesamt)9.91s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.67sAntwortzeit (Maximum)6.67sAntwortzeit (Gesamt)6.67s