Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Qwen3.6 27B 7.7

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#78	Qwen3.6 27B medium	Qwen	7.7	6.8	2/3	61.1s
#30	Qwen3.5-27B medium	Qwen	8.2	7.8	2/3	59.6s
#53	Gemini 3.1 Flash Lite high	Google	5.7	7.3	1/3	50.8s
#67	MiniMax M3 medium	Minimax	7.9	7.1	2/3	49.9s
#12	Gemini 3.1 Flash Lite Preview high	Google	7.7	8.6	2/3	46.7s
#76	Kimi K2.5 medium	Moonshot AI	5.3	6.8	1/3	43.2s
#72	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	1/3	37.7s
#103	DeepSeek V4 Pro high	DeepSeek	5.9	6.0	1/3	34.8s
#66	Qwen3.5-35B-A3B medium	Qwen	8.2	7.1	2/3	33.1s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	3/3	32.5s
#161	Qwen3.5-9B medium	Qwen	3.0	4.2	0/3	32.3s
#73	Seed-2.0-Mini medium	Bytedance Seed	8.2	6.9	2/3	31.8s
#55	GLM 5.1 medium	Z.ai	8.2	7.3	2/3	31.6s
#96	Ring-2.6-1T none	Inclusionai	7.7	6.2	2/3	31.5s
#82	Hy3 preview high	Tencent	7.7	6.6	2/3	27.9s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)