Ranking für Allgemeine Intelligenz x API-Fehler

Sieh, welche KI-Modelle bei Allgemeine Intelligenz am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Nemotron 3 Ultra 1

Fehlergründe

Anweisungen nicht befolgt78 Falsche Antwort59 API-Fehler12 Zeitüberschreitung4

Kategorien

Programmierung45 Kombiniert26 Werkzeugaufrufe17 Anti-KI-Tricks14 Datenanalyse und -extraktion14 Allgemeinwissen13 Allgemeine Intelligenz12 Rätsellösen12 Domänenspezifisch7 Befolgung von Anweisungen1

12/12

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#51	Nemotron 3 Ultra medium	NVIDIA	1	3.7	$0.774	0/1	2.52s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.774 Antwortzeit (Durchschnitt) 2.52s
#76	DeepSeek V3.2 medium	DeepSeek	1	3.4	$0.078	0/1	58.3s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 58.3s
#135	Hy3 preview high	Tencent	1	3.0	$0.048	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 0ms
#153	Hy3 preview low	Tencent	1	3.0	$0.015	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 0ms
#173	DeepSeek V3.2 none	DeepSeek	1	4.7	$0.054	0/1	9.32s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeine Intelligenz: API-Fehler

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten