Verfolge die besten SOTA-KI-Modelle mit dem AI BENCHY-Leaderboard – der einfache Weg, um zu sehen, welche Modelle aktuell bei Score, Denkqualität, Zuverlässigkeit und Preis-Leistung führen. Sortieren nach: Korrekte Tests ↓.
Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-06Bewertete Modelle: 55
0/0
Keine Daten verfügbar.
Rang
Modell
Unternehmen
PunktzahlDurchschnittswert über alle Benchmark-Tests.
Kosten pro ErgebnisZeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.36sAntwortzeit (Maximum)50.16sAntwortzeit (Gesamt)111.21s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.61sAntwortzeit (Maximum)5.61sAntwortzeit (Gesamt)5.61s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)50.16sAntwortzeit (Maximum)50.16sAntwortzeit (Gesamt)50.16s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.72sAntwortzeit (Maximum)4.72sAntwortzeit (Gesamt)4.72s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)21.12sAntwortzeit (Maximum)21.12sAntwortzeit (Gesamt)21.12s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.09sAntwortzeit (Maximum)4.09sAntwortzeit (Gesamt)4.09s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.10sAntwortzeit (Maximum)6.10sAntwortzeit (Gesamt)6.10s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.43sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)8.85s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.55sAntwortzeit (Maximum)10.55sAntwortzeit (Gesamt)10.55s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)16.60sAntwortzeit (Maximum)40.61sAntwortzeit (Gesamt)149.36s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.52sAntwortzeit (Maximum)9.52sAntwortzeit (Gesamt)9.52s
Combined: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)40.61sAntwortzeit (Maximum)40.61sAntwortzeit (Gesamt)40.61s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)7.72sAntwortzeit (Gesamt)7.72s
Domain specific: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)32.73sAntwortzeit (Maximum)32.73sAntwortzeit (Gesamt)32.73s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.77sAntwortzeit (Maximum)11.77sAntwortzeit (Gesamt)11.77s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.56sAntwortzeit (Maximum)9.56sAntwortzeit (Gesamt)9.56s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.15sAntwortzeit (Maximum)8.49sAntwortzeit (Gesamt)14.30s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.15sAntwortzeit (Maximum)23.15sAntwortzeit (Gesamt)23.15s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)34.45sAntwortzeit (Maximum)79.86sAntwortzeit (Gesamt)310.09s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.37sAntwortzeit (Maximum)10.37sAntwortzeit (Gesamt)10.37s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.85sAntwortzeit (Maximum)46.85sAntwortzeit (Gesamt)46.85s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.91sAntwortzeit (Maximum)46.91sAntwortzeit (Gesamt)46.91s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)17.50sAntwortzeit (Maximum)17.50sAntwortzeit (Gesamt)17.50s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)79.86sAntwortzeit (Maximum)79.86sAntwortzeit (Gesamt)79.86s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.93sAntwortzeit (Maximum)31.93sAntwortzeit (Gesamt)31.93s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.57sAntwortzeit (Maximum)49.12sAntwortzeit (Gesamt)69.13s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.54sAntwortzeit (Maximum)7.54sAntwortzeit (Gesamt)7.54s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.11sAntwortzeit (Maximum)14.72sAntwortzeit (Gesamt)97.74s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.50sAntwortzeit (Maximum)4.31sAntwortzeit (Gesamt)10.49s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.27sAntwortzeit (Maximum)3.27sAntwortzeit (Gesamt)3.27s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.40sAntwortzeit (Maximum)14.72sAntwortzeit (Gesamt)18.80s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)8.05sAntwortzeit (Maximum)14.40sAntwortzeit (Gesamt)24.15s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.68sAntwortzeit (Maximum)3.68sAntwortzeit (Gesamt)3.68s
Instructions following: 9.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.02sAntwortzeit (Maximum)7.35sAntwortzeit (Gesamt)14.03s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.11sAntwortzeit (Maximum)10.27sAntwortzeit (Gesamt)18.32s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.99sAntwortzeit (Maximum)4.99sAntwortzeit (Gesamt)4.99s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)7.15sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)64.34s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.75sAntwortzeit (Maximum)3.75sAntwortzeit (Gesamt)3.75s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)10.37sAntwortzeit (Maximum)10.37sAntwortzeit (Gesamt)10.37s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.84sAntwortzeit (Maximum)10.84sAntwortzeit (Gesamt)10.84s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.01sAntwortzeit (Maximum)7.01sAntwortzeit (Gesamt)7.01s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.34sAntwortzeit (Maximum)9.34sAntwortzeit (Gesamt)9.34s
Instructions following: 9.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)3.26sAntwortzeit (Gesamt)3.26s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.91sAntwortzeit (Maximum)4.23sAntwortzeit (Gesamt)7.81s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 2Antwortzeit (Durchschnitt)16.59sAntwortzeit (Maximum)100.93sAntwortzeit (Gesamt)265.39s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.69sAntwortzeit (Maximum)6.68sAntwortzeit (Gesamt)14.06s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.56sAntwortzeit (Maximum)19.56sAntwortzeit (Gesamt)19.56s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.07sAntwortzeit (Maximum)3.59sAntwortzeit (Gesamt)6.15s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)64.31sAntwortzeit (Maximum)100.93sAntwortzeit (Gesamt)192.94s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.87sAntwortzeit (Maximum)4.87sAntwortzeit (Gesamt)4.87s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.04sAntwortzeit (Maximum)3.44sAntwortzeit (Gesamt)6.07s
Puzzle Solving: 9.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.12sAntwortzeit (Maximum)8.73sAntwortzeit (Gesamt)15.37s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.37sAntwortzeit (Maximum)6.37sAntwortzeit (Gesamt)6.37s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)52.13sAntwortzeit (Maximum)163.96sAntwortzeit (Gesamt)834.16s…
Anweisungen nicht befolgt: 2Zeitüberschreitung: 1Falsche Antwort: 1
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.69sAntwortzeit (Maximum)10.84sAntwortzeit (Gesamt)29.06s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)163.96sAntwortzeit (Maximum)163.96sAntwortzeit (Gesamt)163.96s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)30.26sAntwortzeit (Maximum)32.03sAntwortzeit (Gesamt)60.52s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)79.53sAntwortzeit (Maximum)95.52sAntwortzeit (Gesamt)238.59s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)101.41sAntwortzeit (Maximum)101.41sAntwortzeit (Gesamt)101.41s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)19.66sAntwortzeit (Maximum)32.25sAntwortzeit (Gesamt)39.32s
Puzzle Solving: 8.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)64.61sAntwortzeit (Maximum)123.57sAntwortzeit (Gesamt)193.84s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.45sAntwortzeit (Maximum)7.45sAntwortzeit (Gesamt)7.45s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)68.83sAntwortzeit (Maximum)280.52sAntwortzeit (Gesamt)1101.32s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)43.87sAntwortzeit (Maximum)121.88sAntwortzeit (Gesamt)131.62s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)280.52sAntwortzeit (Maximum)280.52sAntwortzeit (Gesamt)280.52s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.16sAntwortzeit (Maximum)8.54sAntwortzeit (Gesamt)14.31s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)127.58sAntwortzeit (Maximum)133.93sAntwortzeit (Gesamt)382.74s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.25sAntwortzeit (Maximum)5.25sAntwortzeit (Gesamt)5.25s
Instructions following: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)70.07sAntwortzeit (Maximum)136.53sAntwortzeit (Gesamt)140.14s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)46.33sAntwortzeit (Maximum)134.22sAntwortzeit (Gesamt)139.00s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.73sAntwortzeit (Maximum)7.73sAntwortzeit (Gesamt)7.73s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 2Antwortzeit (Durchschnitt)20.05sAntwortzeit (Maximum)100.41sAntwortzeit (Gesamt)320.87s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.02sAntwortzeit (Maximum)6.42sAntwortzeit (Gesamt)15.06s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)20.57sAntwortzeit (Maximum)20.57sAntwortzeit (Gesamt)20.57s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.32sAntwortzeit (Maximum)5.40sAntwortzeit (Gesamt)10.64s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)74.27sAntwortzeit (Maximum)100.41sAntwortzeit (Gesamt)222.80s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.92sAntwortzeit (Maximum)4.92sAntwortzeit (Gesamt)4.92s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.11sAntwortzeit (Maximum)3.68sAntwortzeit (Gesamt)6.22s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)9.13sAntwortzeit (Maximum)18.14sAntwortzeit (Gesamt)27.39s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.28sAntwortzeit (Maximum)13.28sAntwortzeit (Gesamt)13.28s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Zeitüberschreitung: 1Antwortzeit (Durchschnitt)29.74sAntwortzeit (Maximum)119.29sAntwortzeit (Gesamt)475.83s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.99sAntwortzeit (Maximum)11.62sAntwortzeit (Gesamt)20.98s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)107.79sAntwortzeit (Maximum)107.79sAntwortzeit (Gesamt)107.79s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.41sAntwortzeit (Maximum)29.79sAntwortzeit (Gesamt)46.83s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)63.40sAntwortzeit (Maximum)119.29sAntwortzeit (Gesamt)190.20s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)34.11sAntwortzeit (Maximum)34.11sAntwortzeit (Gesamt)34.11s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.88sAntwortzeit (Maximum)15.44sAntwortzeit (Gesamt)19.76s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.18sAntwortzeit (Maximum)31.99sAntwortzeit (Gesamt)51.55s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.60sAntwortzeit (Maximum)4.60sAntwortzeit (Gesamt)4.60s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)11.23sAntwortzeit (Maximum)46.35sAntwortzeit (Gesamt)89.84s…
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)4.95sAntwortzeit (Maximum)4.95sAntwortzeit (Gesamt)4.95s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)46.35sAntwortzeit (Maximum)46.35sAntwortzeit (Gesamt)46.35s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.90sAntwortzeit (Maximum)13.90sAntwortzeit (Gesamt)13.90s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.94sAntwortzeit (Maximum)4.94sAntwortzeit (Gesamt)4.94s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.61sAntwortzeit (Maximum)2.61sAntwortzeit (Gesamt)2.61s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.80sAntwortzeit (Maximum)5.22sAntwortzeit (Gesamt)9.60s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.48sAntwortzeit (Maximum)7.48sAntwortzeit (Gesamt)7.48s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.83sAntwortzeit (Maximum)14.93sAntwortzeit (Gesamt)61.25s…
Anti-AI Tricks: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.53sAntwortzeit (Maximum)3.89sAntwortzeit (Gesamt)7.58s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.93sAntwortzeit (Maximum)14.93sAntwortzeit (Gesamt)14.93s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.29sAntwortzeit (Maximum)2.31sAntwortzeit (Gesamt)4.59s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.21sAntwortzeit (Maximum)5.86sAntwortzeit (Gesamt)12.62s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.16sAntwortzeit (Maximum)3.16sAntwortzeit (Gesamt)3.16s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.91sAntwortzeit (Maximum)1.93sAntwortzeit (Gesamt)3.82s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.58sAntwortzeit (Maximum)4.41sAntwortzeit (Gesamt)10.75s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.80sAntwortzeit (Maximum)3.80sAntwortzeit (Gesamt)3.80s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)16.16sAntwortzeit (Maximum)28.96sAntwortzeit (Gesamt)129.26s…
Falsche Antwort: 2Anweisungen nicht befolgt: 1Keine Antwort: 1Zeitüberschreitung: 1
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)22.26sAntwortzeit (Maximum)22.26sAntwortzeit (Gesamt)22.26s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.96sAntwortzeit (Maximum)28.96sAntwortzeit (Gesamt)28.96s
Data parsing and extraction: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)8.90sAntwortzeit (Maximum)8.90sAntwortzeit (Gesamt)8.90s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)14.69sAntwortzeit (Maximum)14.69sAntwortzeit (Gesamt)14.69s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.25sAntwortzeit (Maximum)7.25sAntwortzeit (Gesamt)7.25s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.64sAntwortzeit (Maximum)16.34sAntwortzeit (Gesamt)31.27s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.93sAntwortzeit (Maximum)15.93sAntwortzeit (Gesamt)15.93s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.03sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)112.51s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.97sAntwortzeit (Maximum)4.78sAntwortzeit (Gesamt)11.90s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.12sAntwortzeit (Maximum)9.12sAntwortzeit (Gesamt)9.12s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.05sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)6.10s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)38.52sAntwortzeit (Gesamt)53.33s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20s
Instructions following: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.46sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.92s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.42sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)13.27s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.68sAntwortzeit (Maximum)4.68sAntwortzeit (Gesamt)4.68s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.35sAntwortzeit (Maximum)95.48sAntwortzeit (Gesamt)197.62s…
Anti-AI Tricks: 7.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.98sAntwortzeit (Maximum)15.56sAntwortzeit (Gesamt)20.95s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)28.44sAntwortzeit (Maximum)28.44sAntwortzeit (Gesamt)28.44s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.06sAntwortzeit (Maximum)5.06sAntwortzeit (Gesamt)8.11s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)37.34sAntwortzeit (Maximum)95.48sAntwortzeit (Gesamt)112.01s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.86sAntwortzeit (Maximum)4.86sAntwortzeit (Gesamt)4.86s
Instructions following: 9.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.62sAntwortzeit (Maximum)2.78sAntwortzeit (Gesamt)5.24s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.94sAntwortzeit (Maximum)6.33sAntwortzeit (Gesamt)11.83s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.20sAntwortzeit (Maximum)6.20sAntwortzeit (Gesamt)6.20s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.36sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)53.84s…
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.18sAntwortzeit (Maximum)3.18sAntwortzeit (Gesamt)6.53s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)11.91sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)11.91s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.00sAntwortzeit (Maximum)3.74sAntwortzeit (Gesamt)5.99s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)3.51sAntwortzeit (Gesamt)7.07s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.54sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)1.54s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.49sAntwortzeit (Maximum)1.66sAntwortzeit (Gesamt)2.99s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.76sAntwortzeit (Maximum)5.08sAntwortzeit (Gesamt)8.27s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.54sAntwortzeit (Maximum)9.54sAntwortzeit (Gesamt)9.54s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)39.48sAntwortzeit (Maximum)93.11sAntwortzeit (Gesamt)631.71s…
Falsche Antwort: 3Anweisungen nicht befolgt: 1Zeitüberschreitung: 1
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)33.39sAntwortzeit (Maximum)44.23sAntwortzeit (Gesamt)100.18s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)93.11sAntwortzeit (Maximum)93.11sAntwortzeit (Gesamt)93.11s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)36.09sAntwortzeit (Maximum)39.12sAntwortzeit (Gesamt)72.18s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)39.32sAntwortzeit (Maximum)79.03sAntwortzeit (Gesamt)117.95s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)31.30sAntwortzeit (Maximum)31.30sAntwortzeit (Gesamt)31.30s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)35.78sAntwortzeit (Maximum)47.30sAntwortzeit (Gesamt)71.56s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)36.87sAntwortzeit (Maximum)59.22sAntwortzeit (Gesamt)110.62s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)34.81sAntwortzeit (Maximum)34.81sAntwortzeit (Gesamt)34.81s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Antwortzeit (Durchschnitt)1.75sAntwortzeit (Maximum)3.56sAntwortzeit (Gesamt)15.71s…
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.59sAntwortzeit (Maximum)1.59sAntwortzeit (Gesamt)1.59s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.56sAntwortzeit (Maximum)3.56sAntwortzeit (Gesamt)3.56s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.41sAntwortzeit (Maximum)1.41sAntwortzeit (Gesamt)1.41s
Domain specific: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)963msAntwortzeit (Maximum)963msAntwortzeit (Gesamt)963ms
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.13sAntwortzeit (Maximum)1.13sAntwortzeit (Gesamt)1.13s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.58sAntwortzeit (Maximum)1.58sAntwortzeit (Gesamt)1.58s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.06sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.12s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.35sAntwortzeit (Maximum)3.35sAntwortzeit (Gesamt)3.35s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3API-Fehler: 1Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)25.33sAntwortzeit (Maximum)96.01sAntwortzeit (Gesamt)253.33s…
Falsche Antwort: 3API-Fehler: 1Anweisungen nicht befolgt: 1
Anti-AI Tricks: 9.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)16.79sAntwortzeit (Maximum)20.83sAntwortzeit (Gesamt)33.57s
Combined: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)75.68sAntwortzeit (Maximum)75.68sAntwortzeit (Gesamt)75.68s
Data parsing and extraction: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)96.01sAntwortzeit (Maximum)96.01sAntwortzeit (Gesamt)96.01s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.20sAntwortzeit (Maximum)4.20sAntwortzeit (Gesamt)4.20s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.28sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)8.55s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.77sAntwortzeit (Maximum)5.26sAntwortzeit (Gesamt)7.55s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)27.78sAntwortzeit (Maximum)27.78sAntwortzeit (Gesamt)27.78s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Falsche Antwort: 3Antwortzeit (Durchschnitt)29.10sAntwortzeit (Maximum)170.45sAntwortzeit (Gesamt)290.96s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)18.54sAntwortzeit (Maximum)32.30sAntwortzeit (Gesamt)37.07s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)29.57sAntwortzeit (Maximum)29.57sAntwortzeit (Gesamt)29.57s
Data parsing and extraction: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.01sAntwortzeit (Maximum)15.01sAntwortzeit (Gesamt)15.01s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)170.45sAntwortzeit (Maximum)170.45sAntwortzeit (Gesamt)170.45s
General Intelligence: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.54sAntwortzeit (Maximum)6.54sAntwortzeit (Gesamt)6.54s
Instructions following: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.98sAntwortzeit (Maximum)4.98sAntwortzeit (Gesamt)4.98s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.72sAntwortzeit (Maximum)10.60sAntwortzeit (Gesamt)15.44s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.91sAntwortzeit (Maximum)11.91sAntwortzeit (Gesamt)11.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)5.96sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)95.30s…
Anti-AI Tricks: 7.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.72sAntwortzeit (Maximum)7.35sAntwortzeit (Gesamt)14.17s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.96sAntwortzeit (Maximum)11.96sAntwortzeit (Gesamt)11.96s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.21sAntwortzeit (Maximum)2.52sAntwortzeit (Gesamt)4.42s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)13.01sAntwortzeit (Maximum)18.33sAntwortzeit (Gesamt)39.04s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.99sAntwortzeit (Maximum)1.99sAntwortzeit (Gesamt)1.99s
Instructions following: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.29sAntwortzeit (Maximum)4.18sAntwortzeit (Gesamt)6.59s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.93sAntwortzeit (Maximum)3.05sAntwortzeit (Gesamt)8.78s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)8.36sAntwortzeit (Maximum)8.36sAntwortzeit (Gesamt)8.36s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 4Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.33sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)21.27s…
Anti-AI Tricks: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.16sAntwortzeit (Maximum)1.47sAntwortzeit (Gesamt)3.49s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.20sAntwortzeit (Maximum)3.20sAntwortzeit (Gesamt)3.20s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.22sAntwortzeit (Maximum)1.33sAntwortzeit (Gesamt)2.44s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)942msAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)2.83s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)741msAntwortzeit (Maximum)741msAntwortzeit (Gesamt)741ms
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.13sAntwortzeit (Maximum)1.14sAntwortzeit (Gesamt)2.27s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)972msAntwortzeit (Maximum)1.13sAntwortzeit (Gesamt)2.92s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.39sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)3.39s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 4Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)65.09sAntwortzeit (Maximum)262.83sAntwortzeit (Gesamt)846.14s…
Zeitüberschreitung: 4Anweisungen nicht befolgt: 1Falsche Antwort: 1
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)98.99sAntwortzeit (Maximum)182.10sAntwortzeit (Gesamt)296.96s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)262.83sAntwortzeit (Maximum)262.83sAntwortzeit (Gesamt)262.83s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.27sAntwortzeit (Maximum)27.52sAntwortzeit (Gesamt)48.54s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 3Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
General Intelligence: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)36.65sAntwortzeit (Maximum)36.65sAntwortzeit (Gesamt)36.65s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.47sAntwortzeit (Maximum)19.46sAntwortzeit (Gesamt)34.93s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)25.85sAntwortzeit (Maximum)32.95sAntwortzeit (Gesamt)77.55s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)88.68sAntwortzeit (Maximum)88.68sAntwortzeit (Gesamt)88.68s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 3API-Fehler: 1Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)70.81sAntwortzeit (Maximum)234.29sAntwortzeit (Gesamt)1132.90s…
Zeitüberschreitung: 3API-Fehler: 1Anweisungen nicht befolgt: 1Falsche Antwort: 1
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)71.35sAntwortzeit (Maximum)168.31sAntwortzeit (Gesamt)214.06s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)17.78sAntwortzeit (Maximum)17.78sAntwortzeit (Gesamt)17.78s
Data parsing and extraction: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)56.99sAntwortzeit (Maximum)80.14sAntwortzeit (Gesamt)113.98s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)146.50sAntwortzeit (Maximum)234.29sAntwortzeit (Gesamt)439.49s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)40.05sAntwortzeit (Maximum)40.05sAntwortzeit (Gesamt)40.05s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)63.49sAntwortzeit (Maximum)111.61sAntwortzeit (Gesamt)126.98s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Antwortzeit (Durchschnitt)56.74sAntwortzeit (Maximum)115.01sAntwortzeit (Gesamt)170.23s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)10.33sAntwortzeit (Maximum)10.33sAntwortzeit (Gesamt)10.33s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 3Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.57sAntwortzeit (Maximum)23.84sAntwortzeit (Gesamt)50.12s…
Zusätzliche Formatierung: 3Falsche Antwort: 2Anweisungen nicht befolgt: 1
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Antwortzeit (Durchschnitt)4.83sAntwortzeit (Maximum)4.83sAntwortzeit (Gesamt)4.83s
Combined: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)23.84sAntwortzeit (Maximum)23.84sAntwortzeit (Gesamt)23.84s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.43sAntwortzeit (Maximum)3.43sAntwortzeit (Gesamt)3.43s
Domain specific: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.56sAntwortzeit (Maximum)2.56sAntwortzeit (Gesamt)2.56s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.96sAntwortzeit (Maximum)1.96sAntwortzeit (Gesamt)1.96s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)2.92sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)5.84s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.11sAntwortzeit (Maximum)4.11sAntwortzeit (Gesamt)4.11s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 4Falsche Antwort: 2Antwortzeit (Durchschnitt)22.86sAntwortzeit (Maximum)83.40sAntwortzeit (Gesamt)205.71s…
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Antwortzeit (Durchschnitt)11.88sAntwortzeit (Maximum)11.88sAntwortzeit (Gesamt)11.88s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)76.66sAntwortzeit (Maximum)76.66sAntwortzeit (Gesamt)76.66s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.37sAntwortzeit (Maximum)7.37sAntwortzeit (Gesamt)7.37s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)83.40sAntwortzeit (Maximum)83.40sAntwortzeit (Gesamt)83.40s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.04sAntwortzeit (Maximum)5.04sAntwortzeit (Gesamt)5.04s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.43sAntwortzeit (Maximum)2.43sAntwortzeit (Gesamt)2.43s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.60sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)9.20s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)9.73sAntwortzeit (Maximum)9.73sAntwortzeit (Gesamt)9.73s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Keine Antwort: 1Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)15.33sAntwortzeit (Maximum)77.80sAntwortzeit (Gesamt)138.01s…
Anweisungen nicht befolgt: 3Keine Antwort: 1Zeitüberschreitung: 1Falsche Antwort: 1
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)14.34sAntwortzeit (Maximum)14.34sAntwortzeit (Gesamt)14.34s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)14.06sAntwortzeit (Maximum)14.06sAntwortzeit (Gesamt)14.06s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.15sAntwortzeit (Maximum)3.15sAntwortzeit (Gesamt)3.15s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)77.80sAntwortzeit (Maximum)77.80sAntwortzeit (Gesamt)77.80s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.32sAntwortzeit (Maximum)4.32sAntwortzeit (Gesamt)4.32s
Instructions following: 9.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.12sAntwortzeit (Maximum)3.12sAntwortzeit (Gesamt)3.12s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.47sAntwortzeit (Maximum)6.45sAntwortzeit (Gesamt)10.94s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)10.30sAntwortzeit (Maximum)10.30sAntwortzeit (Gesamt)10.30s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Anweisungen nicht befolgt: 2Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)69.83sAntwortzeit (Maximum)137.29sAntwortzeit (Gesamt)628.45s…
Falsche Antwort: 3Anweisungen nicht befolgt: 2Keine Antwort: 1Zeitüberschreitung: 1
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)85.28sAntwortzeit (Maximum)85.28sAntwortzeit (Gesamt)85.28s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)71.37sAntwortzeit (Maximum)71.37sAntwortzeit (Gesamt)71.37s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)49.78sAntwortzeit (Maximum)49.78sAntwortzeit (Gesamt)49.78s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)137.29sAntwortzeit (Maximum)137.29sAntwortzeit (Gesamt)137.29s
General Intelligence: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)69.73sAntwortzeit (Maximum)69.73sAntwortzeit (Gesamt)69.73s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)92.47sAntwortzeit (Maximum)92.47sAntwortzeit (Gesamt)92.47s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)45.40sAntwortzeit (Maximum)82.75sAntwortzeit (Gesamt)90.79s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.74sAntwortzeit (Maximum)31.74sAntwortzeit (Gesamt)31.74s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7Antwortzeit (Durchschnitt)2.65sAntwortzeit (Maximum)6.65sAntwortzeit (Gesamt)26.52s…
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)2.74sAntwortzeit (Maximum)2.74sAntwortzeit (Gesamt)2.74s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.65sAntwortzeit (Maximum)6.65sAntwortzeit (Gesamt)6.65s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.89sAntwortzeit (Maximum)1.89sAntwortzeit (Gesamt)1.89s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.17sAntwortzeit (Maximum)1.44sAntwortzeit (Gesamt)2.33s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.26sAntwortzeit (Maximum)2.26sAntwortzeit (Gesamt)2.26s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.67sAntwortzeit (Maximum)1.67sAntwortzeit (Gesamt)1.67s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.82sAntwortzeit (Maximum)3.52sAntwortzeit (Gesamt)5.65s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.33sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)3.33s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 3Falsche Antwort: 2Keine Antwort: 1Zeitüberschreitung: 1Antwortzeit (Durchschnitt)26.35sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)237.11s…
Anweisungen nicht befolgt: 3Falsche Antwort: 2Keine Antwort: 1Zeitüberschreitung: 1
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.65sAntwortzeit (Maximum)5.65sAntwortzeit (Gesamt)5.65s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)37.64sAntwortzeit (Maximum)37.64sAntwortzeit (Gesamt)37.64s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)121.79sAntwortzeit (Maximum)121.79sAntwortzeit (Gesamt)121.79s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.25sAntwortzeit (Maximum)16.25sAntwortzeit (Gesamt)16.25s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.30sAntwortzeit (Maximum)5.30sAntwortzeit (Gesamt)5.30s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)8.08sAntwortzeit (Maximum)8.38sAntwortzeit (Gesamt)16.17s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)27.71sAntwortzeit (Maximum)27.71sAntwortzeit (Gesamt)27.71s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7Antwortzeit (Durchschnitt)4.03sAntwortzeit (Maximum)11.07sAntwortzeit (Gesamt)36.30s…
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.39sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)3.39s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.98sAntwortzeit (Maximum)4.98sAntwortzeit (Gesamt)4.98s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)5.78sAntwortzeit (Maximum)5.78sAntwortzeit (Gesamt)5.78s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)2.24sAntwortzeit (Maximum)2.24sAntwortzeit (Gesamt)2.24s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.27sAntwortzeit (Maximum)3.27sAntwortzeit (Gesamt)3.27s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.48sAntwortzeit (Maximum)1.48sAntwortzeit (Gesamt)1.48s
Puzzle Solving: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.05sAntwortzeit (Maximum)2.08sAntwortzeit (Gesamt)4.10s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.07sAntwortzeit (Maximum)11.07sAntwortzeit (Gesamt)11.07s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 4Falsche Antwort: 3Zeitüberschreitung: 1Antwortzeit (Durchschnitt)25.14sAntwortzeit (Maximum)88.15sAntwortzeit (Gesamt)402.29s…
Anweisungen nicht befolgt: 4Falsche Antwort: 3Zeitüberschreitung: 1
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)16.45sAntwortzeit (Maximum)26.00sAntwortzeit (Gesamt)49.36s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)88.15sAntwortzeit (Maximum)88.15sAntwortzeit (Gesamt)88.15s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)12.58sAntwortzeit (Maximum)13.87sAntwortzeit (Gesamt)25.16s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)44.63sAntwortzeit (Maximum)82.55sAntwortzeit (Gesamt)133.89s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)13.50sAntwortzeit (Maximum)13.50sAntwortzeit (Gesamt)13.50s
Instructions following: 7.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)15.66sAntwortzeit (Maximum)21.80sAntwortzeit (Gesamt)31.32s
Puzzle Solving: 4.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)14.09sAntwortzeit (Maximum)16.81sAntwortzeit (Gesamt)42.28s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)18.64sAntwortzeit (Maximum)18.64sAntwortzeit (Gesamt)18.64s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 4Falsche Antwort: 2API-Fehler: 1Keine Antwort: 1Antwortzeit (Durchschnitt)43.93sAntwortzeit (Maximum)106.00sAntwortzeit (Gesamt)702.85s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)21.75sAntwortzeit (Maximum)34.96sAntwortzeit (Gesamt)65.26s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)75.34sAntwortzeit (Maximum)75.34sAntwortzeit (Gesamt)75.34s
Data parsing and extraction: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)59.33sAntwortzeit (Maximum)97.12sAntwortzeit (Gesamt)118.65s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)88.34sAntwortzeit (Maximum)106.00sAntwortzeit (Gesamt)265.01s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Antwortzeit (Durchschnitt)30.30sAntwortzeit (Maximum)30.30sAntwortzeit (Gesamt)30.30s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)24.45sAntwortzeit (Maximum)43.36sAntwortzeit (Gesamt)48.89s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)31.58sAntwortzeit (Maximum)60.18sAntwortzeit (Gesamt)94.75s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.65sAntwortzeit (Maximum)4.65sAntwortzeit (Gesamt)4.65s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 6Zusätzliche Formatierung: 2invalid tool call: 1Antwortzeit (Durchschnitt)12.86sAntwortzeit (Maximum)115.89sAntwortzeit (Gesamt)205.78s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)8.79sAntwortzeit (Maximum)12.26sAntwortzeit (Gesamt)26.38s
Combined: 8.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.invalid tool call: 1Antwortzeit (Durchschnitt)115.89sAntwortzeit (Maximum)115.89sAntwortzeit (Gesamt)115.89s
Data parsing and extraction: 5.4Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.42sAntwortzeit (Maximum)16.20sAntwortzeit (Gesamt)18.84s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.61sAntwortzeit (Maximum)1.77sAntwortzeit (Gesamt)4.83s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.52sAntwortzeit (Maximum)1.99sAntwortzeit (Gesamt)3.04s
Puzzle Solving: 7.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.37sAntwortzeit (Maximum)10.78sAntwortzeit (Gesamt)22.10s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.85sAntwortzeit (Maximum)11.85sAntwortzeit (Gesamt)11.85s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 3Zeitüberschreitung: 1Antwortzeit (Durchschnitt)47.94sAntwortzeit (Maximum)204.02sAntwortzeit (Gesamt)431.47s…
Falsche Antwort: 5Anweisungen nicht befolgt: 3Zeitüberschreitung: 1
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)37.73sAntwortzeit (Maximum)37.73sAntwortzeit (Gesamt)37.73s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)65.96sAntwortzeit (Maximum)65.96sAntwortzeit (Gesamt)65.96s
Data parsing and extraction: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)21.42sAntwortzeit (Maximum)21.42sAntwortzeit (Gesamt)21.42s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)204.02sAntwortzeit (Maximum)204.02sAntwortzeit (Gesamt)204.02s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)17.51sAntwortzeit (Maximum)17.51sAntwortzeit (Gesamt)17.51s
Instructions following: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)11.90sAntwortzeit (Maximum)11.90sAntwortzeit (Gesamt)11.90s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)19.81sAntwortzeit (Maximum)21.31sAntwortzeit (Gesamt)39.63s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)33.30sAntwortzeit (Maximum)33.30sAntwortzeit (Gesamt)33.30s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 4Antwortzeit (Durchschnitt)2.36sAntwortzeit (Maximum)14.63sAntwortzeit (Gesamt)35.39s…
Anti-AI Tricks: 7.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)2.46sAntwortzeit (Gesamt)3.89s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.28sAntwortzeit (Maximum)3.28sAntwortzeit (Gesamt)3.28s
Data parsing and extraction: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.11sAntwortzeit (Maximum)1.47sAntwortzeit (Gesamt)2.21s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.48sAntwortzeit (Maximum)14.63sAntwortzeit (Gesamt)19.43s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)821msAntwortzeit (Maximum)821msAntwortzeit (Gesamt)821ms
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.07sAntwortzeit (Gesamt)1.07s
Puzzle Solving: 1.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)934msAntwortzeit (Maximum)1.18sAntwortzeit (Gesamt)2.80s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.89sAntwortzeit (Maximum)1.89sAntwortzeit (Gesamt)1.89s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)13.73sAntwortzeit (Gesamt)56.70s…
Anti-AI Tricks: 2.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.62sAntwortzeit (Maximum)3.89sAntwortzeit (Gesamt)4.85s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)6.22sAntwortzeit (Maximum)6.22sAntwortzeit (Gesamt)6.22s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.57sAntwortzeit (Maximum)1.83sAntwortzeit (Gesamt)3.14s
Domain specific: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)905msAntwortzeit (Maximum)1.10sAntwortzeit (Gesamt)2.71s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)803msAntwortzeit (Maximum)803msAntwortzeit (Gesamt)803ms
Instructions following: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.81sAntwortzeit (Maximum)13.73sAntwortzeit (Gesamt)17.61s
Puzzle Solving: 1.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)5.90sAntwortzeit (Maximum)12.19sAntwortzeit (Gesamt)17.69s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.67sAntwortzeit (Maximum)3.67sAntwortzeit (Gesamt)3.67s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 4Antwortzeit (Durchschnitt)16.65sAntwortzeit (Maximum)50.92sAntwortzeit (Gesamt)149.88s…
Anti-AI Tricks: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)19.76sAntwortzeit (Maximum)19.76sAntwortzeit (Gesamt)19.76s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)31.18sAntwortzeit (Maximum)31.18sAntwortzeit (Gesamt)31.18s
Data parsing and extraction: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.98sAntwortzeit (Maximum)1.98sAntwortzeit (Gesamt)1.98s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)50.92sAntwortzeit (Maximum)50.92sAntwortzeit (Gesamt)50.92s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)7.90sAntwortzeit (Maximum)7.90sAntwortzeit (Gesamt)7.90s
Instructions following: 9.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)7.63sAntwortzeit (Maximum)7.63sAntwortzeit (Gesamt)7.63s
Puzzle Solving: 1.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)11.80sAntwortzeit (Maximum)12.60sAntwortzeit (Gesamt)23.61s
Tool Calling: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.91sAntwortzeit (Maximum)6.91sAntwortzeit (Gesamt)6.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)923msAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)14.78s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)668msAntwortzeit (Maximum)844msAntwortzeit (Gesamt)2.01s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.39sAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)4.39s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)652msAntwortzeit (Maximum)660msAntwortzeit (Gesamt)1.30s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)495msAntwortzeit (Maximum)642msAntwortzeit (Gesamt)1.49s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)615msAntwortzeit (Maximum)615msAntwortzeit (Gesamt)615ms
Instructions following: 9.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)672msAntwortzeit (Maximum)785msAntwortzeit (Gesamt)1.34s
Puzzle Solving: 4.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)576msAntwortzeit (Maximum)700msAntwortzeit (Gesamt)1.73s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.91sAntwortzeit (Maximum)1.91sAntwortzeit (Gesamt)1.91s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)3.72sAntwortzeit (Maximum)46.00sAntwortzeit (Gesamt)59.46s…
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)927msAntwortzeit (Maximum)1.38sAntwortzeit (Gesamt)2.78s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)46.00sAntwortzeit (Maximum)46.00sAntwortzeit (Gesamt)46.00s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.01sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.02s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)465msAntwortzeit (Maximum)492msAntwortzeit (Gesamt)1.39s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.12sAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)1.12s
Instructions following: 4.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)585msAntwortzeit (Maximum)715msAntwortzeit (Gesamt)1.17s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)982msAntwortzeit (Maximum)1.36sAntwortzeit (Gesamt)2.95s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.04sAntwortzeit (Maximum)2.04sAntwortzeit (Gesamt)2.04s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)4.10sAntwortzeit (Maximum)47.43sAntwortzeit (Gesamt)65.62s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.76sAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)5.27s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)47.43sAntwortzeit (Maximum)47.43sAntwortzeit (Gesamt)47.43s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.16sAntwortzeit (Maximum)1.42sAntwortzeit (Gesamt)2.33s
Domain specific: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)485msAntwortzeit (Maximum)549msAntwortzeit (Gesamt)1.45s
General Intelligence: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.19sAntwortzeit (Maximum)1.19sAntwortzeit (Gesamt)1.19s
Instructions following: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)809msAntwortzeit (Maximum)983msAntwortzeit (Gesamt)1.62s
Puzzle Solving: 1.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.34sAntwortzeit (Maximum)2.25sAntwortzeit (Gesamt)4.03s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.30sAntwortzeit (Maximum)2.30sAntwortzeit (Gesamt)2.30s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.48sAntwortzeit (Maximum)2.89sAntwortzeit (Gesamt)23.64s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.41sAntwortzeit (Maximum)2.58sAntwortzeit (Gesamt)4.23s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.89sAntwortzeit (Maximum)2.89sAntwortzeit (Gesamt)2.89s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.04sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)2.08s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)3.22s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.78sAntwortzeit (Maximum)1.78sAntwortzeit (Gesamt)1.78s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.07sAntwortzeit (Maximum)1.17sAntwortzeit (Gesamt)2.15s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.52sAntwortzeit (Maximum)1.82sAntwortzeit (Gesamt)4.56s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.75sAntwortzeit (Maximum)2.75sAntwortzeit (Gesamt)2.75s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.75sAntwortzeit (Maximum)9.39sAntwortzeit (Gesamt)28.05s…
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)796msAntwortzeit (Maximum)1.34sAntwortzeit (Gesamt)2.39s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)9.39sAntwortzeit (Maximum)9.39sAntwortzeit (Gesamt)9.39s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.43sAntwortzeit (Maximum)1.45sAntwortzeit (Gesamt)2.86s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)540msAntwortzeit (Maximum)649msAntwortzeit (Gesamt)1.62s
General Intelligence: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.51sAntwortzeit (Gesamt)2.51s
Instructions following: 4.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)815msAntwortzeit (Maximum)973msAntwortzeit (Gesamt)1.63s
Puzzle Solving: 6.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.37sAntwortzeit (Maximum)2.23sAntwortzeit (Gesamt)4.12s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.54sAntwortzeit (Maximum)3.54sAntwortzeit (Gesamt)3.54s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 5Anweisungen nicht befolgt: 3Zeitüberschreitung: 2invalid tool call: 1Antwortzeit (Durchschnitt)43.03sAntwortzeit (Maximum)237.27sAntwortzeit (Gesamt)387.25s…
Falsche Antwort: 5Anweisungen nicht befolgt: 3Zeitüberschreitung: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)32.42sAntwortzeit (Maximum)32.42sAntwortzeit (Gesamt)32.42s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.invalid tool call: 1Antwortzeit (Durchschnitt)60.39sAntwortzeit (Maximum)60.39sAntwortzeit (Gesamt)60.39s
Data parsing and extraction: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.48sAntwortzeit (Maximum)7.48sAntwortzeit (Gesamt)7.48s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Zeitüberschreitung: 1Antwortzeit (Durchschnitt)237.27sAntwortzeit (Maximum)237.27sAntwortzeit (Gesamt)237.27s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)6.63sAntwortzeit (Maximum)6.63sAntwortzeit (Gesamt)6.63s
Instructions following: 8.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)4.64sAntwortzeit (Maximum)4.64sAntwortzeit (Gesamt)4.64s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zeitüberschreitung: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)11.54sAntwortzeit (Maximum)17.37sAntwortzeit (Gesamt)23.08s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.35sAntwortzeit (Maximum)15.35sAntwortzeit (Gesamt)15.35s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)3.15sAntwortzeit (Maximum)8.91sAntwortzeit (Gesamt)50.46s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)3.59sAntwortzeit (Maximum)8.17sAntwortzeit (Gesamt)10.78s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)8.91sAntwortzeit (Maximum)8.91sAntwortzeit (Gesamt)8.91s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)3.26sAntwortzeit (Maximum)4.66sAntwortzeit (Gesamt)6.52s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)877msAntwortzeit (Maximum)894msAntwortzeit (Gesamt)2.63s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.86sAntwortzeit (Maximum)2.86sAntwortzeit (Gesamt)2.86s
Instructions following: 3.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.09sAntwortzeit (Maximum)1.23sAntwortzeit (Gesamt)2.19s
Puzzle Solving: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)3.30sAntwortzeit (Maximum)4.81sAntwortzeit (Gesamt)9.91s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)6.67sAntwortzeit (Maximum)6.67sAntwortzeit (Gesamt)6.67s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Antwortzeit (Durchschnitt)11.91sAntwortzeit (Maximum)42.13sAntwortzeit (Gesamt)107.16s…
Anti-AI Tricks: 2.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)11.38sAntwortzeit (Maximum)11.38sAntwortzeit (Gesamt)11.38s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)19.16sAntwortzeit (Maximum)19.16sAntwortzeit (Gesamt)19.16s
Data parsing and extraction: 5.4Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)42.13sAntwortzeit (Maximum)42.13sAntwortzeit (Gesamt)42.13s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)4.38sAntwortzeit (Maximum)4.38sAntwortzeit (Gesamt)4.38s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)4.00sAntwortzeit (Maximum)4.00sAntwortzeit (Gesamt)4.00s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.67sAntwortzeit (Maximum)2.67sAntwortzeit (Gesamt)2.67s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)4.73sAntwortzeit (Maximum)7.81sAntwortzeit (Gesamt)9.45s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)13.99sAntwortzeit (Maximum)13.99sAntwortzeit (Gesamt)13.99s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.07sAntwortzeit (Maximum)7.58sAntwortzeit (Gesamt)18.60s…
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.83sAntwortzeit (Maximum)1.83sAntwortzeit (Gesamt)1.83s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.58sAntwortzeit (Maximum)7.58sAntwortzeit (Gesamt)7.58s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.27sAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)1.27s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)637msAntwortzeit (Maximum)637msAntwortzeit (Gesamt)637ms
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)909msAntwortzeit (Maximum)909msAntwortzeit (Gesamt)909ms
Instructions following: 4.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.27sAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)1.27s
Puzzle Solving: 2.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.30sAntwortzeit (Maximum)1.54sAntwortzeit (Gesamt)2.60s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.51sAntwortzeit (Maximum)2.51sAntwortzeit (Gesamt)2.51s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10Zusätzliche Formatierung: 1Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)11.68sAntwortzeit (Maximum)45.14sAntwortzeit (Gesamt)116.76s…
Falsche Antwort: 10Zusätzliche Formatierung: 1Anweisungen nicht befolgt: 1
Anti-AI Tricks: 2.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Zusätzliche Formatierung: 1Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)4.39sAntwortzeit (Maximum)4.39sAntwortzeit (Gesamt)4.39s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)45.14sAntwortzeit (Maximum)45.14sAntwortzeit (Gesamt)45.14s
Data parsing and extraction: 5.4Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.32sAntwortzeit (Maximum)1.32sAntwortzeit (Gesamt)1.32s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)962msAntwortzeit (Maximum)962msAntwortzeit (Gesamt)962ms
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.34sAntwortzeit (Maximum)1.34sAntwortzeit (Gesamt)1.34s
Instructions following: 4.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)7.71sAntwortzeit (Maximum)14.65sAntwortzeit (Gesamt)15.42s
Puzzle Solving: 1.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)22.86sAntwortzeit (Maximum)42.58sAntwortzeit (Gesamt)45.73s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.47sAntwortzeit (Maximum)2.47sAntwortzeit (Gesamt)2.47s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9Anweisungen nicht befolgt: 2invalid tool call: 1Antwortzeit (Durchschnitt)2.99sAntwortzeit (Maximum)7.05sAntwortzeit (Gesamt)26.90s…
Falsche Antwort: 9Anweisungen nicht befolgt: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)6.59sAntwortzeit (Maximum)6.59sAntwortzeit (Gesamt)6.59s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.invalid tool call: 1Antwortzeit (Durchschnitt)3.22sAntwortzeit (Maximum)3.22sAntwortzeit (Gesamt)3.22s
Data parsing and extraction: 5.4Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.82sAntwortzeit (Maximum)4.82sAntwortzeit (Gesamt)4.82s
Domain specific: 7.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)744msAntwortzeit (Maximum)744msAntwortzeit (Gesamt)744ms
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.59sAntwortzeit (Maximum)1.59sAntwortzeit (Gesamt)1.59s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)888msAntwortzeit (Maximum)888msAntwortzeit (Gesamt)888ms
Puzzle Solving: 3.7Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)1.00sAntwortzeit (Maximum)1.12sAntwortzeit (Gesamt)2.00s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)7.05sAntwortzeit (Maximum)7.05sAntwortzeit (Gesamt)7.05s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)596msAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)9.54s…
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)466msAntwortzeit (Maximum)716msAntwortzeit (Gesamt)1.40s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)606msAntwortzeit (Maximum)606msAntwortzeit (Gesamt)606ms
Data parsing and extraction: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)667msAntwortzeit (Maximum)819msAntwortzeit (Gesamt)1.33s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)534msAntwortzeit (Maximum)733msAntwortzeit (Gesamt)1.60s
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)628msAntwortzeit (Maximum)628msAntwortzeit (Gesamt)628ms
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)551msAntwortzeit (Maximum)622msAntwortzeit (Gesamt)1.10s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)533msAntwortzeit (Maximum)637msAntwortzeit (Gesamt)1.60s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.27sAntwortzeit (Maximum)1.27sAntwortzeit (Gesamt)1.27s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 7Anweisungen nicht befolgt: 2Keine Antwort: 2invalid tool call: 1Antwortzeit (Durchschnitt)36.84sAntwortzeit (Maximum)174.55sAntwortzeit (Gesamt)331.58s…
Falsche Antwort: 7Anweisungen nicht befolgt: 2Keine Antwort: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)27.09sAntwortzeit (Maximum)27.09sAntwortzeit (Gesamt)27.09s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.invalid tool call: 1Antwortzeit (Durchschnitt)65.57sAntwortzeit (Maximum)65.57sAntwortzeit (Gesamt)65.57s
Data parsing and extraction: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)1.51sAntwortzeit (Maximum)1.51sAntwortzeit (Gesamt)1.51s
Domain specific: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Keine Antwort: 1Antwortzeit (Durchschnitt)174.55sAntwortzeit (Maximum)174.55sAntwortzeit (Gesamt)174.55s
General Intelligence: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)18.14sAntwortzeit (Maximum)18.14sAntwortzeit (Gesamt)18.14s
Instructions following: 5.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.97sAntwortzeit (Maximum)2.97sAntwortzeit (Gesamt)2.97s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)12.90sAntwortzeit (Maximum)22.33sAntwortzeit (Gesamt)25.80s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)15.95sAntwortzeit (Maximum)15.95sAntwortzeit (Gesamt)15.95s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 8Anweisungen nicht befolgt: 5Antwortzeit (Durchschnitt)12.53sAntwortzeit (Maximum)81.80sAntwortzeit (Gesamt)125.32s…
Anti-AI Tricks: 1.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)15.28sAntwortzeit (Maximum)15.28sAntwortzeit (Gesamt)15.28s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)4.28sAntwortzeit (Maximum)4.28sAntwortzeit (Gesamt)4.28s
Data parsing and extraction: 5.4Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)81.80sAntwortzeit (Maximum)81.80sAntwortzeit (Gesamt)81.80s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)638msAntwortzeit (Maximum)638msAntwortzeit (Gesamt)638ms
General Intelligence: 6.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.39sAntwortzeit (Maximum)1.39sAntwortzeit (Gesamt)1.39s
Instructions following: 4.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)7.34sAntwortzeit (Maximum)13.67sAntwortzeit (Gesamt)14.68s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 2Falsche Antwort: 1Antwortzeit (Durchschnitt)2.30sAntwortzeit (Maximum)3.80sAntwortzeit (Gesamt)4.61s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.64sAntwortzeit (Maximum)2.64sAntwortzeit (Gesamt)2.64s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 11Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)1.90sAntwortzeit (Maximum)5.51sAntwortzeit (Gesamt)17.14s…
Anti-AI Tricks: 1.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.73sAntwortzeit (Maximum)1.73sAntwortzeit (Gesamt)1.73s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)3.33sAntwortzeit (Maximum)3.33sAntwortzeit (Gesamt)3.33s
Data parsing and extraction: 9.9Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)943msAntwortzeit (Maximum)943msAntwortzeit (Gesamt)943ms
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.06sAntwortzeit (Maximum)1.06sAntwortzeit (Gesamt)1.06s
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.08sAntwortzeit (Maximum)1.08sAntwortzeit (Gesamt)1.08s
Instructions following: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)923msAntwortzeit (Maximum)923msAntwortzeit (Gesamt)923ms
Puzzle Solving: 1.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.28sAntwortzeit (Maximum)1.36sAntwortzeit (Gesamt)2.56s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)5.51sAntwortzeit (Maximum)5.51sAntwortzeit (Gesamt)5.51s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 10API-Fehler: 1Zusätzliche Formatierung: 1Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)2.97sAntwortzeit (Maximum)19.68sAntwortzeit (Gesamt)35.60s…
Falsche Antwort: 10API-Fehler: 1Zusätzliche Formatierung: 1Anweisungen nicht befolgt: 1
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.36sAntwortzeit (Maximum)2.73sAntwortzeit (Gesamt)4.07s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.87sAntwortzeit (Maximum)2.87sAntwortzeit (Gesamt)2.87s
Data parsing and extraction: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Zusätzliche Formatierung: 1Antwortzeit (Durchschnitt)19.68sAntwortzeit (Maximum)19.68sAntwortzeit (Gesamt)19.68s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)564msAntwortzeit (Maximum)564msAntwortzeit (Gesamt)564ms
General Intelligence: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)1.67sAntwortzeit (Maximum)1.67sAntwortzeit (Gesamt)1.67s
Instructions following: 5.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)857msAntwortzeit (Maximum)955msAntwortzeit (Gesamt)1.71s
Puzzle Solving: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)1.38sAntwortzeit (Maximum)1.74sAntwortzeit (Gesamt)2.75s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)2.28sAntwortzeit (Maximum)2.28sAntwortzeit (Gesamt)2.28s
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 9API-Fehler: 4Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)811msAntwortzeit (Maximum)2.88sAntwortzeit (Gesamt)11.35s…
Falsche Antwort: 9API-Fehler: 4Anweisungen nicht befolgt: 2
Anti-AI Tricks: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)471msAntwortzeit (Maximum)872msAntwortzeit (Gesamt)1.41s
Combined: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms
Data parsing and extraction: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)714msAntwortzeit (Maximum)987msAntwortzeit (Gesamt)1.43s
Domain specific: 4.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)287msAntwortzeit (Maximum)334msAntwortzeit (Gesamt)860ms
General Intelligence: 3.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)395msAntwortzeit (Maximum)395msAntwortzeit (Gesamt)395ms
Instructions following: 4.5Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Antwortzeit (Durchschnitt)1.09sAntwortzeit (Maximum)1.90sAntwortzeit (Gesamt)2.18s
Puzzle Solving: 3.3Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)1.69sAntwortzeit (Maximum)2.88sAntwortzeit (Gesamt)5.08s
Tool Calling: 10.0Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.API-Fehler: 1Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0ms