Modelranglijst voor Puzzeloplossing

Zie welke AI-modellen het best presteren op Puzzeloplossing, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Correcte tests ↑.

Getoonde modellen

Gemiddelde Puzzeloplossing-score

6.7

Beste model

GPT-5.4 Nano 4.1

Foutredenen

Met foutreden Verkeerd antwoord204 Met foutreden Instructies niet gevolgd90 Met foutreden API-fout12 Met foutreden Extra opmaak8 Met foutreden Time-out5 Met foutreden Geen antwoord3

216/216

Rang	Model	Bedrijf	Puzzeloplossing-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.817	1/3	33.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.817 Responstijd (gem.) 33.7s
#50	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
Totaal tests 3 Foute tests 2 Totale kosten $0.200 Responstijd (gem.) 56.8s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
Totaal tests 3 Foute tests 2 Totale kosten $0.774 Responstijd (gem.) 3.54s
#56	Kimi K2.7 Code medium	Moonshot AI	5.9	7.5	$0.740	1/3	41.0s
Totaal tests 3 Foute tests 2 Totale kosten $0.740 Responstijd (gem.) 41.0s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
Totaal tests 3 Foute tests 2 Totale kosten $0.478 Responstijd (gem.) 8.84s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
Totaal tests 3 Foute tests 2 Totale kosten $0.387 Responstijd (gem.) 3.11s
#71	Step 3.7 Flash low	Stepfun	5.5	7.3	$0.454	1/3	1.84s
Totaal tests 3 Foute tests 2 Totale kosten $0.454 Responstijd (gem.) 1.84s
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
Totaal tests 3 Foute tests 2 Totale kosten $1.036 Responstijd (gem.) 25.1s
#77	Grok 4.3 medium	X AI	5.9	7.1	$0.779	1/3	22.5s
Totaal tests 3 Foute tests 2 Totale kosten $0.779 Responstijd (gem.) 22.5s
#80	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.078 Responstijd (gem.) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	5.3	7.0	$0.600	1/3	43.2s
Totaal tests 3 Foute tests 2 Totale kosten $0.600 Responstijd (gem.) 43.2s
#82	Mercury 2 medium	Inception	5.4	7.0	$0.093	1/3	949ms
Totaal tests 3 Foute tests 2 Totale kosten $0.093 Responstijd (gem.) 949ms
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
Totaal tests 3 Foute tests 2 Totale kosten $0.467 Responstijd (gem.) 3.20s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
Totaal tests 3 Foute tests 2 Totale kosten $0.187 Responstijd (gem.) 5.31s
#90	Step 3.7 Flash high	Stepfun	5.3	6.9	$1.207	1/3	10.2s
Totaal tests 3 Foute tests 2 Totale kosten $1.207 Responstijd (gem.) 10.2s

Puzzeloplossing-ranglijst

Modellen filteren

Topmodellen op Puzzeloplossing-score

Puzzeloplossing-score vs totale kosten

Topmodellen op Responstijd (gem.)