Ranking für Rätsellösen x API-Fehler

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Nemotron 3 Nano Omni 30b A3b Reasoning 1

Fehlergründe

Falsche Antwort201 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Programmierung45 Kombiniert26 Werkzeugaufrufe17 Anti-KI-Tricks14 Datenanalyse und -extraktion14 Allgemeinwissen13 Allgemeine Intelligenz12 Rätsellösen12 Domänenspezifisch7 Befolgung von Anweisungen1

11/11

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 532ms
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 650ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 891ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.40s
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 1.78s
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 1.93s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 6.91s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 7.51s
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 7.52s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 10.2s
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 27.9s

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: API-Fehler

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten