Ranking für Allgemeinwissen x API-Fehler

Sieh, welche KI-Modelle bei Allgemeinwissen am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Gemini 3 PRO Preview 1

Fehlergründe

Falsche Antwort168 API-Fehler13 Keine Antwort13

Kategorien

Programmierung45 Kombiniert26 Werkzeugaufrufe17 Anti-KI-Tricks14 Datenanalyse und -extraktion14 Allgemeinwissen13 Allgemeine Intelligenz12 Rätsellösen12 Domänenspezifisch7 Befolgung von Anweisungen1

13/13

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#133	Gemini 3 PRO Preview medium	Google	1	3.0	$0.385	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.385 Antwortzeit (Durchschnitt) 0ms
#137	North Mini Code medium	Cohere	1	3.0	$0.000	0/1	305.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 305.0s
#162	Ling-2.6-1T none	Inclusionai	1	3.0	$0.016	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 0ms
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 0ms
#193	Elephant Alpha none	Openrouter	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#195	Elephant Alpha medium	Openrouter	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 0ms
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/1	177.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 177.0s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeinwissen: API-Fehler

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten