Zusammenfassung
Nemotron 3 Super erreicht 5.9 bei AI BENCHY und liegt auf #96. Das Modell hat 10.0 Zuverlässigkeit, 45.0% Erfolgsrate, $0.001 Gesamtkosten und 21.15s durchschnittliche Antwortzeit.
Was Nemotron 3 Super besonders macht: Am stärksten ist es in Anti-KI-Tricks, wo es #2 erreicht; am schwächsten ist Programmierung mit #13. Die Benchmark-Gesamtkosten sind für diese Leistungsklasse ungewöhnlich niedrig.
5.9
Konsistenz
8.8
10.0
Gesamte Ausgabe-Token
44,978
Gesamte Eingabe-Token
0
Eingabepreis
$0.090 / 1M
Ausgabepreis
$0.450 / 1M
Instabile Tests
3
Instabile Tests hatten gemischte Ergebnisse über Läufe hinweg (mindestens ein Erfolg und ein Fehlschlag).
Testverlauf
| Getestet am | Punktzahl | Zuverlässigkeit | Korrekte Tests | Gesamtkosten | Vergleichen |
|---|---|---|---|---|---|
| 2026-06-04 14:07 Neuer Test hinzugefügt | 5.8 | 10.0 | $0.021 ↑ | Vergleichen | |
| 2026-05-22 00:27 Suite geändert | 5.9 | 10.0 | $0.001 | Aktueller Lauf | |
| 2026-05-08 15:31 Suite geändert | 6.1 | 10.0 | $0.001 | Vergleichen | |
| 2026-04-20 17:48 Erster erfasster Lauf | 6.7 | k. A. | $0.000 | Vergleichen |
Dieser Lauf nutzte eine andere Benchmark-Suite. Berücksichtige Suite-Änderungen bei der historischen Einordnung.
Laufvergleich
| Lauf | Punktzahl | Konsistenz | Zuverlässigkeit | Korrekte Tests | Instabile Tests | Gesamte Ausgabe-Token | Gesamte Eingabe-Token | Gesamtkosten | Antwortzeit (Durchschnitt) |
|---|---|---|---|---|---|---|---|---|---|
| 2026-05-22 00:27 · Suite geändert | 5.9 | 8.8 | 10.0 | 8/20 | 3 | 44,978 | 0 | $0.001 | 21.15s |
| 2026-06-04 14:07 · Neuer Test hinzugefügt | 5.8 | 9.2 | 10.0 | 8/21 | 2 | 48,604 | 37,527 | $0.021 | 32.00s |
| Differenz | +0.1 | -0.4 | 0.0 | 0 | +1 | -3626 | -37527 | -$0.020 | -10847ms |
Diese beiden Läufe nutzten unterschiedliche Benchmark-Suiten, daher spiegeln die Deltas sowohl Modell- als auch Suite-Änderungen wider.
Diagramme
Wähle zuerst das erste Modell und klicke dann ein zweites Modell, um eine Seite im direkten Vergleich zu öffnen.
Punktzahl vs Gesamtkosten
Antwortzeit (Durchschnitt)
Punktzahl vs Antwortzeit (Durchschnitt)
Gesamte Ausgabe-Token
Punktzahl vs Gesamte Ausgabe-Token
Schnellvergleich
Kategorieaufschlüsselung
| Kategorie | Punktzahl | Konsistenz | Korrekte Tests |
|---|---|---|---|
| Anti-KI-Tricks | 8.3 | 10.0 | |
| Programmierung | 3.1 | 9.9 | |
| Kombiniert | 10.0 | 10.0 | |
| Datenanalyse und -extraktion | 10.0 | 10.0 | |
| Domänenspezifisch | 2.9 | 4.4 | |
| Allgemeine Intelligenz | 4.1 | 10.0 | |
| Befolgung von Anweisungen | 7.2 | 6.6 | |
| Rätsellösen | 3.1 | 10.0 | |
| Werkzeugaufrufe | 10.0 | 10.0 | |
| Allgemeinwissen | 3.0 | 10.0 |