Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 33.3%Instabile Tests: 2…Ausgabe-Token: 4,444Denk-Token: 0Antwortzeit: Durchschn. 29.39s · Gesamt 529.10s · Max. 111.96s
Anti-KI-Tricks
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)20.18sAntwortzeit (Maximum)26.54sAntwortzeit (Gesamt)80.73s
Programmierung
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)24.04sAntwortzeit (Maximum)24.04sAntwortzeit (Gesamt)24.04s
Kombiniert
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)111.96sAntwortzeit (Maximum)111.96sAntwortzeit (Gesamt)111.96s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.79sAntwortzeit (Maximum)23.85sAntwortzeit (Gesamt)47.57s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)19.73sAntwortzeit (Maximum)27.66sAntwortzeit (Gesamt)59.18s
Allgemeine Intelligenz
: 4.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)23.74sAntwortzeit (Maximum)23.74sAntwortzeit (Gesamt)23.74s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)17.54sAntwortzeit (Maximum)18.51sAntwortzeit (Gesamt)35.08s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)77.93sAntwortzeit (Maximum)77.93sAntwortzeit (Gesamt)77.93s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 29.6%Instabile Tests: 2…Ausgabe-Token: 1,591Denk-Token: 0Antwortzeit: Durchschn. 1.19s · Gesamt 21.37s · Max. 6.48s
Anti-KI-Tricks
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)597msAntwortzeit (Maximum)866msAntwortzeit (Gesamt)2.39s
Programmierung
: 5.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.14sAntwortzeit (Maximum)1.14sAntwortzeit (Gesamt)1.14s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)6.48sAntwortzeit (Maximum)6.48sAntwortzeit (Gesamt)6.48s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)601msAntwortzeit (Maximum)634msAntwortzeit (Gesamt)1.20s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)611msAntwortzeit (Maximum)616msAntwortzeit (Gesamt)1.83s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)541msAntwortzeit (Maximum)541msAntwortzeit (Gesamt)541ms
Rätsellösen
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)541msAntwortzeit (Maximum)677msAntwortzeit (Gesamt)1.62s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.79sAntwortzeit (Maximum)4.79sAntwortzeit (Gesamt)4.79s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 51.9%Instabile Tests: 10…Ausgabe-Token: 4,984Denk-Token: 62,787Antwortzeit: Durchschn. 31.08s · Gesamt 528.37s · Max. 117.04s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)91.27sAntwortzeit (Maximum)91.27sAntwortzeit (Gesamt)91.27s
Kombiniert
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)41.03sAntwortzeit (Maximum)41.03sAntwortzeit (Gesamt)41.03s
Datenanalyse und -extraktion
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)21.95sAntwortzeit (Maximum)24.88sAntwortzeit (Gesamt)43.89s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)19.00sAntwortzeit (Maximum)21.63sAntwortzeit (Gesamt)38.01s
Allgemeine Intelligenz
: 3.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)38.70sAntwortzeit (Maximum)38.70sAntwortzeit (Gesamt)38.70s
Rätsellösen
: 3.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)25.62sAntwortzeit (Maximum)46.29sAntwortzeit (Gesamt)76.87s
Werkzeugaufrufe
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.05sAntwortzeit (Maximum)12.05sAntwortzeit (Gesamt)12.05s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 29.6%Instabile Tests: 1…Ausgabe-Token: 2,596Denk-Token: 0Antwortzeit: Durchschn. 1.27s · Gesamt 22.82s · Max. 3.70s
Anti-KI-Tricks
: 6.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)2.04sAntwortzeit (Gesamt)4.75s
Programmierung
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)1.30sAntwortzeit (Gesamt)1.30s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.70sAntwortzeit (Maximum)3.70sAntwortzeit (Gesamt)3.70s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)979msAntwortzeit (Maximum)1.02sAntwortzeit (Gesamt)1.96s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)925msAntwortzeit (Maximum)1.16sAntwortzeit (Gesamt)2.77s
Allgemeine Intelligenz
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)920msAntwortzeit (Maximum)920msAntwortzeit (Gesamt)920ms
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)987msAntwortzeit (Maximum)1.13sAntwortzeit (Gesamt)1.97s
Rätsellösen
: 3.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)867msAntwortzeit (Maximum)972msAntwortzeit (Gesamt)2.60s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)2.83sAntwortzeit (Maximum)2.83sAntwortzeit (Gesamt)2.83s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 29.6%Instabile Tests: 1…Ausgabe-Token: 1,967Denk-Token: 0Antwortzeit: Durchschn. 1.11s · Gesamt 20.02s · Max. 6.04s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)501msAntwortzeit (Maximum)839msAntwortzeit (Gesamt)2.01s
Programmierung
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.22sAntwortzeit (Maximum)1.22sAntwortzeit (Gesamt)1.22s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)6.04sAntwortzeit (Maximum)6.04sAntwortzeit (Gesamt)6.04s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)522msAntwortzeit (Maximum)537msAntwortzeit (Gesamt)1.04s
Allgemeine Intelligenz
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)659msAntwortzeit (Maximum)659msAntwortzeit (Gesamt)659ms
Rätsellösen
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)487msAntwortzeit (Maximum)539msAntwortzeit (Gesamt)1.46s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.63sAntwortzeit (Maximum)4.63sAntwortzeit (Gesamt)4.63s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)665msAntwortzeit (Maximum)1.72sAntwortzeit (Gesamt)11.97s…
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 31.5%Instabile Tests: 1…Ausgabe-Token: 2,207Denk-Token: 0Antwortzeit: Durchschn. 665ms · Gesamt 11.97s · Max. 1.72s
Anti-KI-Tricks
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)395msAntwortzeit (Maximum)769msAntwortzeit (Gesamt)1.58s
Programmierung
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.28sAntwortzeit (Maximum)1.28sAntwortzeit (Gesamt)1.28s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.72sAntwortzeit (Maximum)1.72sAntwortzeit (Gesamt)1.72s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)822msAntwortzeit (Maximum)1.08sAntwortzeit (Gesamt)1.64s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)367msAntwortzeit (Maximum)388msAntwortzeit (Gesamt)1.10s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)729msAntwortzeit (Maximum)729msAntwortzeit (Gesamt)729ms
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)380msAntwortzeit (Maximum)380msAntwortzeit (Gesamt)759ms
Rätsellösen
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)589msAntwortzeit (Maximum)853msAntwortzeit (Gesamt)1.77s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.40sAntwortzeit (Maximum)1.40sAntwortzeit (Gesamt)1.40s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 38.9%Instabile Tests: 5…Ausgabe-Token: 44,652Denk-Token: 0Antwortzeit: Durchschn. 11.96s · Gesamt 179.34s · Max. 68.97s
Programmierung
: 4.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.57sAntwortzeit (Maximum)9.57sAntwortzeit (Gesamt)9.57s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)7.12sAntwortzeit (Maximum)7.12sAntwortzeit (Gesamt)7.12s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)34.98sAntwortzeit (Maximum)68.97sAntwortzeit (Gesamt)104.94s
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.83sAntwortzeit (Maximum)2.83sAntwortzeit (Gesamt)2.83s
Befolgung von Anweisungen
: 8.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.10sAntwortzeit (Maximum)5.85sAntwortzeit (Gesamt)10.21s
Rätsellösen
: 4.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)6.86sAntwortzeit (Maximum)10.66sAntwortzeit (Gesamt)20.59s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 31.5%Instabile Tests: 1…Ausgabe-Token: 2,573Denk-Token: 0Antwortzeit: Durchschn. 1.23s · Gesamt 22.16s · Max. 3.81s
Programmierung
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.39sAntwortzeit (Maximum)1.39sAntwortzeit (Gesamt)1.39s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.81sAntwortzeit (Maximum)3.81sAntwortzeit (Gesamt)3.81s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.04sAntwortzeit (Maximum)1.05sAntwortzeit (Gesamt)2.08s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)927msAntwortzeit (Maximum)1.17sAntwortzeit (Gesamt)2.78s
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)854msAntwortzeit (Maximum)854msAntwortzeit (Gesamt)854ms
Befolgung von Anweisungen
: 9.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.03sAntwortzeit (Maximum)1.17sAntwortzeit (Gesamt)2.07s
Rätsellösen
: 3.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)849msAntwortzeit (Maximum)925msAntwortzeit (Gesamt)2.55s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)2.79sAntwortzeit (Maximum)2.79sAntwortzeit (Gesamt)2.79s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)1.17sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)21.01s…
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 35.2%Instabile Tests: 3…Ausgabe-Token: 2,418Denk-Token: 0Antwortzeit: Durchschn. 1.17s · Gesamt 21.01s · Max. 2.52s
Anti-KI-Tricks
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)929msAntwortzeit (Maximum)1.55sAntwortzeit (Gesamt)3.72s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)1.19sAntwortzeit (Gesamt)1.19s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.52sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)2.52s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)1.58sAntwortzeit (Gesamt)2.61s
Domänenspezifisch
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)937msAntwortzeit (Maximum)1.25sAntwortzeit (Gesamt)2.81s
Allgemeine Intelligenz
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.82sAntwortzeit (Maximum)1.82sAntwortzeit (Gesamt)1.82s
Befolgung von Anweisungen
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)728msAntwortzeit (Maximum)731msAntwortzeit (Gesamt)1.46s
Rätsellösen
: 5.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)860msAntwortzeit (Maximum)958msAntwortzeit (Gesamt)2.58s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.32sAntwortzeit (Maximum)2.32sAntwortzeit (Gesamt)2.32s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 25.9%Instabile Tests: 1…Ausgabe-Token: 3,617Denk-Token: 0Antwortzeit: Durchschn. 10.18s · Gesamt 122.13s · Max. 45.14s
Programmierung
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.14sAntwortzeit (Maximum)3.14sAntwortzeit (Gesamt)3.14s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)45.14sAntwortzeit (Maximum)45.14sAntwortzeit (Gesamt)45.14s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.32sAntwortzeit (Maximum)1.32sAntwortzeit (Gesamt)1.32s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)962msAntwortzeit (Maximum)962msAntwortzeit (Gesamt)962ms
Allgemeine Intelligenz
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.34sAntwortzeit (Maximum)1.34sAntwortzeit (Gesamt)1.34s
Befolgung von Anweisungen
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.71sAntwortzeit (Maximum)14.65sAntwortzeit (Gesamt)15.42s
Rätsellösen
: 3.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)22.86sAntwortzeit (Maximum)42.58sAntwortzeit (Gesamt)45.73s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.47sAntwortzeit (Maximum)2.47sAntwortzeit (Gesamt)2.47s
Gesamttests: 18Falsche Tests: 13Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 27.8%Instabile Tests: 0…Ausgabe-Token: 2,177Denk-Token: 0Antwortzeit: Durchschn. 1.05s · Gesamt 18.94s · Max. 2.43s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)842msAntwortzeit (Maximum)1.47sAntwortzeit (Gesamt)3.37s
Programmierung
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.95sAntwortzeit (Maximum)1.95sAntwortzeit (Gesamt)1.95s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)2.36sAntwortzeit (Gesamt)2.36s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)1.01sAntwortzeit (Maximum)1.18sAntwortzeit (Gesamt)2.03s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)756msAntwortzeit (Maximum)877msAntwortzeit (Gesamt)2.27s
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)841msAntwortzeit (Maximum)841msAntwortzeit (Gesamt)841ms
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)751msAntwortzeit (Maximum)821msAntwortzeit (Gesamt)1.50s
Rätsellösen
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)731msAntwortzeit (Maximum)958msAntwortzeit (Gesamt)2.19s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)2.43s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Anweisungen nicht befolgt: 4Antwortzeit (Durchschnitt)8.54sAntwortzeit (Maximum)24.97sAntwortzeit (Gesamt)153.69s…
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 35.2%Instabile Tests: 4…Ausgabe-Token: 4,760Denk-Token: 0Antwortzeit: Durchschn. 8.54s · Gesamt 153.69s · Max. 24.97s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)7.43sAntwortzeit (Maximum)16.69sAntwortzeit (Gesamt)29.72s
Programmierung
: 3.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.99sAntwortzeit (Maximum)2.99sAntwortzeit (Gesamt)2.99s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)19.98sAntwortzeit (Maximum)19.98sAntwortzeit (Gesamt)19.98s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.92sAntwortzeit (Maximum)13.23sAntwortzeit (Gesamt)15.84s
Domänenspezifisch
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.23sAntwortzeit (Maximum)14.38sAntwortzeit (Gesamt)18.70s
Allgemeine Intelligenz
: 4.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)24.97sAntwortzeit (Maximum)24.97sAntwortzeit (Gesamt)24.97s
Rätsellösen
: 5.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.50sAntwortzeit (Maximum)15.00sAntwortzeit (Gesamt)22.50s
Werkzeugaufrufe
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.00sAntwortzeit (Maximum)16.00sAntwortzeit (Gesamt)16.00s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 13Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.00sAntwortzeit (Maximum)7.58sAntwortzeit (Gesamt)21.99s…
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 22.2%Instabile Tests: 0…Ausgabe-Token: 1,947Denk-Token: 0Antwortzeit: Durchschn. 2.00s · Gesamt 21.99s · Max. 7.58s
Anti-KI-Tricks
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.34sAntwortzeit (Maximum)1.83sAntwortzeit (Gesamt)2.67s
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.55sAntwortzeit (Maximum)2.55sAntwortzeit (Gesamt)2.55s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.58sAntwortzeit (Maximum)7.58sAntwortzeit (Gesamt)7.58s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.27sAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)1.27s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)637msAntwortzeit (Maximum)637msAntwortzeit (Gesamt)637ms
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)909msAntwortzeit (Maximum)909msAntwortzeit (Gesamt)909ms
Rätsellösen
: 3.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)2.60s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.51sAntwortzeit (Gesamt)2.51s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 24.1%Instabile Tests: 1…Ausgabe-Token: 3,951Denk-Token: 0Antwortzeit: Durchschn. 1.47s · Gesamt 26.43s · Max. 5.91s
Anti-KI-Tricks
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.71sAntwortzeit (Maximum)3.79sAntwortzeit (Gesamt)6.84s
Programmierung
: 5.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.69sAntwortzeit (Maximum)5.69sAntwortzeit (Gesamt)5.69s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)5.91sAntwortzeit (Maximum)5.91sAntwortzeit (Gesamt)5.91s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)847msAntwortzeit (Maximum)1.09sAntwortzeit (Gesamt)1.69s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)464msAntwortzeit (Maximum)622msAntwortzeit (Gesamt)1.39s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)552msAntwortzeit (Maximum)552msAntwortzeit (Gesamt)552ms
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)514msAntwortzeit (Maximum)582msAntwortzeit (Gesamt)1.03s
Rätsellösen
: 3.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)683msAntwortzeit (Maximum)945msAntwortzeit (Gesamt)2.05s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.27sAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)1.27s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 13Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)613msAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)11.04s…
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 27.8%Instabile Tests: 2…Ausgabe-Token: 1,625Denk-Token: 0Antwortzeit: Durchschn. 613ms · Gesamt 11.04s · Max. 1.27s
Anti-KI-Tricks
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)483msAntwortzeit (Maximum)716msAntwortzeit (Gesamt)1.93s
Programmierung
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)969msAntwortzeit (Maximum)969msAntwortzeit (Gesamt)969ms
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)606msAntwortzeit (Maximum)606msAntwortzeit (Gesamt)606ms
Datenanalyse und -extraktion
: 7.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)667msAntwortzeit (Maximum)819msAntwortzeit (Gesamt)1.33s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)534msAntwortzeit (Maximum)733msAntwortzeit (Gesamt)1.60s
Allgemeine Intelligenz
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)628msAntwortzeit (Maximum)628msAntwortzeit (Gesamt)628ms
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)551msAntwortzeit (Maximum)622msAntwortzeit (Gesamt)1.10s
Rätsellösen
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)533msAntwortzeit (Maximum)637msAntwortzeit (Gesamt)1.60s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.27sAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)1.27s
Gesamttests: 18Falsche Tests: 15Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 27.8%Instabile Tests: 3…Ausgabe-Token: 3,241Denk-Token: 0Antwortzeit: Durchschn. 10.75s · Gesamt 129.01s · Max. 81.80s
Programmierung
: 4.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)1.69sAntwortzeit (Maximum)1.69sAntwortzeit (Gesamt)1.69s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.28sAntwortzeit (Maximum)4.28sAntwortzeit (Gesamt)4.28s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)81.80sAntwortzeit (Maximum)81.80sAntwortzeit (Gesamt)81.80s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)638msAntwortzeit (Maximum)638msAntwortzeit (Gesamt)638ms
Allgemeine Intelligenz
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.39sAntwortzeit (Maximum)1.39sAntwortzeit (Gesamt)1.39s
Rätsellösen
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)2.30sAntwortzeit (Maximum)3.80sAntwortzeit (Gesamt)4.61s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.64sAntwortzeit (Maximum)2.64sAntwortzeit (Gesamt)2.64s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 27.8%Instabile Tests: 2…Ausgabe-Token: 2,639Denk-Token: 0Antwortzeit: Durchschn. 13.56s · Gesamt 230.55s · Max. 35.84s
Programmierung
: 2.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.56sAntwortzeit (Maximum)4.56sAntwortzeit (Gesamt)4.56s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)35.84sAntwortzeit (Maximum)35.84sAntwortzeit (Gesamt)35.84s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)2.85sAntwortzeit (Maximum)2.85sAntwortzeit (Gesamt)2.85s
Domänenspezifisch
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2API-Fehler: 1Antwortzeit (Durchschnitt)17.61sAntwortzeit (Maximum)25.68sAntwortzeit (Gesamt)52.82s
Allgemeine Intelligenz
: 4.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.07sAntwortzeit (Maximum)16.07sAntwortzeit (Gesamt)16.07s
Befolgung von Anweisungen
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)12.98sAntwortzeit (Maximum)23.51sAntwortzeit (Gesamt)25.95s
Rätsellösen
: 3.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.76sAntwortzeit (Maximum)7.35sAntwortzeit (Gesamt)14.29s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)33.76sAntwortzeit (Maximum)33.76sAntwortzeit (Gesamt)33.76s
Gesamttests: 18Falsche Tests: 14Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 38.9%Instabile Tests: 8…Ausgabe-Token: 39,688Denk-Token: 72,401Antwortzeit: Durchschn. 32.33s · Gesamt 355.65s · Max. 174.55s
Programmierung
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)21.26sAntwortzeit (Maximum)21.26sAntwortzeit (Gesamt)21.26s
Kombiniert
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)65.57sAntwortzeit (Maximum)65.57sAntwortzeit (Gesamt)65.57s
Datenanalyse und -extraktion
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)1.51sAntwortzeit (Maximum)1.51sAntwortzeit (Gesamt)1.51s
Domänenspezifisch
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Keine Antwort: 1Antwortzeit (Durchschnitt)174.55sAntwortzeit (Maximum)174.55sAntwortzeit (Gesamt)174.55s
Allgemeine Intelligenz
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)18.14sAntwortzeit (Maximum)18.14sAntwortzeit (Gesamt)18.14s
Befolgung von Anweisungen
: 6.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.97sAntwortzeit (Maximum)2.97sAntwortzeit (Gesamt)2.97s
Rätsellösen
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.90sAntwortzeit (Maximum)22.33sAntwortzeit (Gesamt)25.80s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.95sAntwortzeit (Maximum)15.95sAntwortzeit (Gesamt)15.95s
Gesamttests: 18Falsche Tests: 15Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 27.8%Instabile Tests: 5…Ausgabe-Token: 68,522Denk-Token: 0Antwortzeit: Durchschn. 2.79s · Gesamt 39.08s · Max. 19.68s
Anti-KI-Tricks
: 3.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)2.73sAntwortzeit (Gesamt)4.76s
Programmierung
: 6.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.79sAntwortzeit (Maximum)2.79sAntwortzeit (Gesamt)2.79s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.87sAntwortzeit (Maximum)2.87sAntwortzeit (Gesamt)2.87s
Domänenspezifisch
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)564msAntwortzeit (Maximum)564msAntwortzeit (Gesamt)564ms
Allgemeine Intelligenz
: 4.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.67sAntwortzeit (Maximum)1.67sAntwortzeit (Gesamt)1.67s
Befolgung von Anweisungen
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)857msAntwortzeit (Maximum)955msAntwortzeit (Gesamt)1.71s
Rätsellösen
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.38sAntwortzeit (Maximum)1.74sAntwortzeit (Gesamt)2.75s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.28sAntwortzeit (Maximum)2.28sAntwortzeit (Gesamt)2.28s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 13Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.76sAntwortzeit (Maximum)5.51sAntwortzeit (Gesamt)19.35s…
Gesamttests: 18Falsche Tests: 15Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 24.1%Instabile Tests: 3…Ausgabe-Token: 1,721Denk-Token: 0Antwortzeit: Durchschn. 1.76s · Gesamt 19.35s · Max. 5.51s
Programmierung
: 5.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.79sAntwortzeit (Maximum)1.79sAntwortzeit (Gesamt)1.79s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.33sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)3.33s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)943msAntwortzeit (Maximum)943msAntwortzeit (Gesamt)943ms
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.06sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)1.06s
Allgemeine Intelligenz
: 4.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.08sAntwortzeit (Maximum)1.08sAntwortzeit (Gesamt)1.08s
Befolgung von Anweisungen
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)923msAntwortzeit (Maximum)923msAntwortzeit (Gesamt)923ms
Rätsellösen
: 3.2 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.28sAntwortzeit (Maximum)1.36sAntwortzeit (Gesamt)2.56s
Werkzeugaufrufe
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.51sAntwortzeit (Maximum)5.51sAntwortzeit (Gesamt)5.51s
Gesamttests: 18Falsche Tests: 15Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 16.7%Instabile Tests: 0…Ausgabe-Token: 2,434Denk-Token: 0Antwortzeit: Durchschn. 8.79s · Gesamt 158.19s · Max. 25.72s
Anti-KI-Tricks
: 3.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)6.55sAntwortzeit (Maximum)9.41sAntwortzeit (Gesamt)26.19s
Programmierung
: 5.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.57sAntwortzeit (Maximum)10.57sAntwortzeit (Gesamt)10.57s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)23.53sAntwortzeit (Maximum)23.53sAntwortzeit (Gesamt)23.53s
Datenanalyse und -extraktion
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.37sAntwortzeit (Maximum)1.37sAntwortzeit (Gesamt)2.73s
Domänenspezifisch
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.04sAntwortzeit (Maximum)1.08sAntwortzeit (Gesamt)3.11s
Allgemeine Intelligenz
: 5.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)20.34sAntwortzeit (Maximum)20.34sAntwortzeit (Gesamt)20.34s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.36sAntwortzeit (Maximum)9.81sAntwortzeit (Gesamt)10.73s
Rätsellösen
: 3.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)11.76sAntwortzeit (Maximum)20.15sAntwortzeit (Gesamt)35.28s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)25.72sAntwortzeit (Maximum)25.72sAntwortzeit (Gesamt)25.72s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 13Anweisungen nicht befolgt: 3Antwortzeit (Durchschnitt)1.40sAntwortzeit (Maximum)3.84sAntwortzeit (Gesamt)25.14s…
Gesamttests: 18Falsche Tests: 16Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 31.5%Instabile Tests: 7…Ausgabe-Token: 2,762Denk-Token: 0Antwortzeit: Durchschn. 1.40s · Gesamt 25.14s · Max. 3.84s
Anti-KI-Tricks
: 3.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Antwortzeit (Durchschnitt)1.18sAntwortzeit (Maximum)1.81sAntwortzeit (Gesamt)4.70s
Programmierung
: 7.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.43sAntwortzeit (Maximum)1.43sAntwortzeit (Gesamt)1.43s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.84sAntwortzeit (Maximum)3.84sAntwortzeit (Gesamt)3.84s
Datenanalyse und -extraktion
: 6.5 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.11sAntwortzeit (Maximum)1.25sAntwortzeit (Gesamt)2.23s
Domänenspezifisch
: 2.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)926msAntwortzeit (Maximum)959msAntwortzeit (Gesamt)2.78s
Allgemeine Intelligenz
: 3.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.31sAntwortzeit (Maximum)1.31sAntwortzeit (Gesamt)1.31s
Rätsellösen
: 3.7 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.29sAntwortzeit (Maximum)1.64sAntwortzeit (Gesamt)3.86s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.40sAntwortzeit (Maximum)3.40sAntwortzeit (Gesamt)3.40s
Gesamttests: 18Falsche Tests: 15Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 33.3%Instabile Tests: 6…Ausgabe-Token: 24,291Denk-Token: 172,597Antwortzeit: Durchschn. 73.64s · Gesamt 1104.60s · Max. 226.38s
Anti-KI-Tricks
: 5.1 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)34.44sAntwortzeit (Maximum)57.86sAntwortzeit (Gesamt)103.31s
Programmierung
: 2.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)135.61sAntwortzeit (Maximum)135.61sAntwortzeit (Gesamt)135.61s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Domänenspezifisch
: 3.6 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 3Antwortzeit (Durchschnitt)137.75sAntwortzeit (Maximum)202.61sAntwortzeit (Gesamt)413.24s
Allgemeine Intelligenz
: 2.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)226.38sAntwortzeit (Maximum)226.38sAntwortzeit (Gesamt)226.38s
Befolgung von Anweisungen
: 6.4 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)17.15sAntwortzeit (Maximum)28.54sAntwortzeit (Gesamt)34.29s
Werkzeugaufrufe
: 10.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.31sAntwortzeit (Maximum)4.31sAntwortzeit (Gesamt)4.31s
Gesamttests: 16Falsche Tests: 15Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 14.6%Instabile Tests: 2…Ausgabe-Token: 1,185Denk-Token: 0Antwortzeit: Durchschn. 811ms · Gesamt 11.35s · Max. 2.88s
Anti-KI-Tricks
: 3.3 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)471msAntwortzeit (Maximum)872msAntwortzeit (Gesamt)1.41s
Kombiniert
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Datenanalyse und -extraktion
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)714msAntwortzeit (Maximum)987msAntwortzeit (Gesamt)1.43s
Domänenspezifisch
: 5.9 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)287msAntwortzeit (Maximum)334msAntwortzeit (Gesamt)860ms
Allgemeine Intelligenz
: 4.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)395msAntwortzeit (Maximum)395msAntwortzeit (Gesamt)395ms
Befolgung von Anweisungen
: 4.8 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.09sAntwortzeit (Maximum)1.90sAntwortzeit (Gesamt)2.18s
Werkzeugaufrufe
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms…
Gesamttests: 1Falsche Tests: 1Zuverlässigkeit: k. A.Zuverlässigkeitstelemetrie ist für dieses Modell nicht verfügbar oder unvollständig.Erfolgsquote pro Versuch: 0.0%Instabile Tests: 0…Ausgabe-Token: 0Denk-Token: 0Antwortzeit: Durchschn. 0ms · Gesamt 0ms · Max. 0ms
Programmierung
: 3.0 Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms