Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Ling-2.6-flash 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#138	Ling-2.6-flash none	Inclusionai	2.9	5.0	0/3	6.51s
#149	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2.9	4.6	0/3	1.40s
#158	GLM 4.7 Flash medium	Z.ai	2.9	4.4	0/3	12.9s
#105	Nemotron 3 Super medium	NVIDIA	3.0	5.8	0/3	3.15s
#135	Kimi K2.5 none	Moonshot AI	3.0	5.2	0/3	4.04s
#140	Qwen3 Coder Next none	Qwen	3.0	4.9	0/3	24.3s
#145	Laguna M.1 none	Poolside	3.0	4.8	0/3	891ms
#150	Qwen3 Coder Next medium	Qwen	3.0	4.6	0/3	1.25s
#157	Grok 4.1 Fast none	X AI	3.0	4.4	0/3	1.10s
#161	Qwen3.5-9B medium	Qwen	3.0	4.2	0/3	32.3s
#162	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	4.1	0/3	532ms
#139	DeepSeek V4 Flash none	DeepSeek	3.1	5.0	0/3	23.7s
#108	Qwen3.5-Flash none	Qwen	3.1	5.8	0/3	10.9s
#155	Mercury 2 none	Inception	3.1	4.5	0/3	535ms
#156	Hy3 preview none	Tencent	3.1	4.4	0/3	4.56s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)