Laguna Xs.2Laguna Xs.2mediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-28Kostenlos verfügbar
Laguna Xs.2Laguna Xs.2mediumArchiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.Veröffentlichung: 2026-04-28Kostenlos verfügbar
Punktzahl
7.2Durchschnittswert über alle Benchmark-Tests.…
6.6Durchschnittswert über alle Benchmark-Tests.…
Rang
#61
#84
Zuverlässigkeit
9.9Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
10.0Erfolgswert beim ersten Versuch: 10.0 bedeutet keine wiederholbaren Ziel-API- oder Rate-Limit-Fehler vor erfolgreichen Aufrufen; erfasste Fehler senken den Wert.…
Konsistenz
8.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
6.8Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
Korrekte Tests
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 6Anweisungen nicht befolgt: 2Antwortzeit (Durchschnitt)61.29sAntwortzeit (Maximum)304.19sAntwortzeit (Gesamt)1164.50sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 6Keine Antwort: 2Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)6.74sAntwortzeit (Maximum)29.11sAntwortzeit (Gesamt)101.08sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
Erfolgsquote pro Versuch
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
64.5%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
Instabile Tests
3Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
6Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Gesamtläufe
60Gesamtläufe…
57Gesamtläufe…
Kosten pro Ergebnis
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
0.000Zeigt die durchschnittlichen Kosten pro korrekter Benchmark-Antwort in Cent an (niedriger ist besser).…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)42.21sAntwortzeit (Maximum)89.34sAntwortzeit (Gesamt)168.84sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
42.21sAntwortzeit (Durchschnitt)…
3,833Ausgabe-Token…
4,891Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
8.2Durchschnittswert über alle Benchmark-Tests.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
88.9%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)2.68sAntwortzeit (Maximum)3.09sAntwortzeit (Gesamt)8.04sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)59.65sAntwortzeit (Maximum)59.65sAntwortzeit (Gesamt)59.65sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
59.65sAntwortzeit (Durchschnitt)…
1,369Ausgabe-Token…
3,985Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.3Durchschnittswert über alle Benchmark-Tests.…
3.7Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)14.36sAntwortzeit (Maximum)14.36sAntwortzeit (Gesamt)14.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)304.19sAntwortzeit (Maximum)304.19sAntwortzeit (Gesamt)304.19sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
304.19sAntwortzeit (Durchschnitt)…
324Ausgabe-Token…
6,088Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
3.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)15.92sAntwortzeit (Maximum)15.92sAntwortzeit (Gesamt)15.92sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)37.36sAntwortzeit (Maximum)54.24sAntwortzeit (Gesamt)74.71sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
37.36sAntwortzeit (Durchschnitt)…
840Ausgabe-Token…
1,937Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
7.1Durchschnittswert über alle Benchmark-Tests.…
5.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
83.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine Antwort: 1Antwortzeit (Durchschnitt)9.34sAntwortzeit (Maximum)16.71sAntwortzeit (Gesamt)18.68sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
33.3%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 3Antwortzeit (Durchschnitt)64.92sAntwortzeit (Maximum)150.55sAntwortzeit (Gesamt)194.76sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
64.92sAntwortzeit (Durchschnitt)…
9,744Ausgabe-Token…
15,013Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.1Durchschnittswert über alle Benchmark-Tests.…
4.4Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
44.5%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
2Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 2Keine Antwort: 1Antwortzeit (Durchschnitt)11.12sAntwortzeit (Maximum)29.11sAntwortzeit (Gesamt)33.35sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Antwortzeit (Durchschnitt)58.26sAntwortzeit (Maximum)58.26sAntwortzeit (Gesamt)58.26sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
58.26sAntwortzeit (Durchschnitt)…
150Ausgabe-Token…
583Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
0.0Durchschnittswert über alle Benchmark-Tests.…
0.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)11.78sAntwortzeit (Maximum)17.75sAntwortzeit (Gesamt)23.55sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
11.78sAntwortzeit (Durchschnitt)…
266Ausgabe-Token…
1,831Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
10.0Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)1.68sAntwortzeit (Maximum)2.03sAntwortzeit (Gesamt)3.36sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
7.2Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
55.6%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Anweisungen nicht befolgt: 1Falsche Antwort: 1Antwortzeit (Durchschnitt)20.73sAntwortzeit (Maximum)42.39sAntwortzeit (Gesamt)62.19sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
20.73sAntwortzeit (Durchschnitt)…
697Ausgabe-Token…
2,479Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
6.5Durchschnittswert über alle Benchmark-Tests.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
50.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)1.99sAntwortzeit (Maximum)2.00sAntwortzeit (Gesamt)3.97sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
100.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)104.44sAntwortzeit (Maximum)104.44sAntwortzeit (Gesamt)104.44sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
104.44sAntwortzeit (Durchschnitt)…
234Ausgabe-Token…
1,531Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
4.7Durchschnittswert über alle Benchmark-Tests.…
1.6Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
66.7%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
1Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Ungültiger Werkzeugaufruf: 1Antwortzeit (Durchschnitt)3.39sAntwortzeit (Maximum)3.39sAntwortzeit (Gesamt)3.39sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
10.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Falsche Antwort: 1Antwortzeit (Durchschnitt)113.91sAntwortzeit (Maximum)113.91sAntwortzeit (Gesamt)113.91sEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…
113.91sAntwortzeit (Durchschnitt)…
4,295Ausgabe-Token…
4,416Denk-Token…
Laguna Xs.2Archiviertes Modell: Dieses Modell wird nicht mehr aktualisiert und nicht mehr in neuen Tests getestet.
0.0Durchschnittswert über alle Benchmark-Tests.…
0.0Der Konsistenzwert zeigt die Stabilität zwischen Läufen (10 = sehr konsistent, auch wenn konsistent falsch).…
0.0%Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Läufe.…
0Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).…
Ein Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.Keine fehlgeschlagenen Antworten.Antwortzeit (Durchschnitt)0msAntwortzeit (Maximum)0msAntwortzeit (Gesamt)0msEin Test gilt nur dann als vollständig bestanden, wenn alle Läufe bestanden wurden.…