Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Mistral Small 4 3.1

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#142	Mistral Small 4 none	Mistral	3.1	4.9	0/3	399ms
#127	Grok 4.20 none	X AI	5.3	5.4	1/3	473ms
#162	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	4.1	0/3	532ms
#155	Mercury 2 none	Inception	3.1	4.5	0/3	535ms
#106	Grok 4.20 Beta none	X AI	7.7	5.8	2/3	586ms
#97	Gemini 2.5 Flash none	Google	7.7	6.2	2/3	604ms
#163	Granite 4.1 8B none	IBM Granite	3.2	4.0	0/3	608ms
#154	Qwen3.5-9B none	Qwen	3.2	4.6	0/3	621ms
#146	Laguna Xs.2 none	Poolside	5.3	4.8	1/3	650ms
#90	Gemini 3.1 Flash Lite none	Google	6.3	6.4	1/3	720ms
#102	Gemma 4 26B A4B none	Google	6.2	6.0	1/3	744ms
#137	Elephant Alpha none	Openrouter	4.2	5.1	0/3	807ms
#144	GPT-5.4 Mini none	OpenAI	5.4	4.9	1/3	836ms
#136	Elephant Alpha medium	Openrouter	5.3	5.1	1/3	868ms
#145	Laguna M.1 none	Poolside	3.0	4.8	0/3	891ms

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)