Modelranglijst voor Puzzeloplossing

Zie welke AI-modellen het best presteren op Puzzeloplossing, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Metriek ↑.

Getoonde modellen

Gemiddelde Puzzeloplossing-score

6.7

Beste model

Step 3.5 Flash 0.0

Foutredenen

Met foutreden Verkeerd antwoord201 Met foutreden Instructies niet gevolgd90 Met foutreden API-fout12 Met foutreden Extra opmaak8 Met foutreden Time-out5 Met foutreden Geen antwoord3

210/210

Rang	Model	Bedrijf	Puzzeloplossing-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#171	North Mini Code none	Cohere	3.5	5.1	$0.000	0/3	24.4s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 24.4s
#174	GPT-4o-mini none	OpenAI	3.5	5.0	$0.010	0/3	1.21s
Totaal tests 3 Foute tests 3 Totale kosten $0.010 Responstijd (gem.) 1.21s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
Totaal tests 3 Foute tests 3 Totale kosten $0.077 Responstijd (gem.) 2.47s
#183	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
Totaal tests 3 Foute tests 3 Totale kosten $0.008 Responstijd (gem.) 1.97s
#188	Cobuddy medium	Baidu	3.6	4.7	$0.000	0/3	12.8s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 12.8s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
Totaal tests 3 Foute tests 3 Totale kosten $0.048 Responstijd (gem.) 1.87s
#127	Qwen3.5-35B-A3B none	Qwen	3.7	6.1	$0.106	0/3	1.35s
Totaal tests 3 Foute tests 3 Totale kosten $0.106 Responstijd (gem.) 1.35s
#142	Qwen3.5-122B-A10B none	Qwen	3.8	5.7	$0.247	0/3	1.00s
Totaal tests 3 Foute tests 3 Totale kosten $0.247 Responstijd (gem.) 1.00s
#210	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
Totaal tests 3 Foute tests 3 Totale kosten $0.001 Responstijd (gem.) 1.78s
#111	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
Totaal tests 3 Foute tests 3 Totale kosten $0.044 Responstijd (gem.) 2.74s
#53	GPT-5.4 Nano medium	OpenAI	4.1	7.5	$0.138	0/3	3.79s
Totaal tests 3 Foute tests 3 Totale kosten $0.138 Responstijd (gem.) 3.79s
#193	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 807ms
#116	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
Totaal tests 3 Foute tests 2 Totale kosten $0.066 Responstijd (gem.) 2.78s
#121	gpt-oss-120b medium	OpenAI	5.3	6.1	$0.019	1/3	21.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.019 Responstijd (gem.) 21.7s
#146	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	3.40s
Totaal tests 3 Foute tests 2 Totale kosten $0.000 Responstijd (gem.) 3.40s

Puzzeloplossing-ranglijst

Modellen filteren

Topmodellen op Puzzeloplossing-score

Puzzeloplossing-score vs totale kosten

Topmodellen op Responstijd (gem.)