Modelranglijst voor Puzzeloplossing

Zie welke AI-modellen het best presteren op Puzzeloplossing, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Metriek ↑.

Getoonde modellen

Gemiddelde Puzzeloplossing-score

6.7

Beste model

Step 3.5 Flash 0.0

Foutredenen

Met foutreden Verkeerd antwoord204 Met foutreden Instructies niet gevolgd90 Met foutreden API-fout12 Met foutreden Extra opmaak8 Met foutreden Time-out5 Met foutreden Geen antwoord3

216/216

Rang	Model	Bedrijf	Puzzeloplossing-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
Totaal tests 3 Foute tests 2 Totale kosten $5.599 Responstijd (gem.) 5.19s
#160	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	$0.068	1/3	1.30s
Totaal tests 3 Foute tests 2 Totale kosten $0.068 Responstijd (gem.) 1.30s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
Totaal tests 3 Foute tests 2 Totale kosten $1.006 Responstijd (gem.) 10.7s
#50	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
Totaal tests 3 Foute tests 2 Totale kosten $0.200 Responstijd (gem.) 56.8s
#80	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.078 Responstijd (gem.) 37.7s
#24	GPT-5.2 medium	OpenAI	7.5	8.4	$0.951	2/3	5.80s
Totaal tests 3 Foute tests 1 Totale kosten $0.951 Responstijd (gem.) 5.80s
#48	GPT-5.6 Luna high	OpenAI	7.6	7.7	$1.017	2/3	14.6s
Totaal tests 3 Foute tests 1 Totale kosten $1.017 Responstijd (gem.) 14.6s
#69	Gemini 3.1 Flash Lite medium	Google	7.6	7.3	$0.117	2/3	1.95s
Totaal tests 3 Foute tests 1 Totale kosten $0.117 Responstijd (gem.) 1.95s
#123	GPT-5.6 Luna low	OpenAI	7.6	6.2	$0.249	2/3	3.59s
Totaal tests 3 Foute tests 1 Totale kosten $0.249 Responstijd (gem.) 3.59s
#179	DeepSeek V3.2 none	DeepSeek	7.6	5.0	$0.054	2/3	6.91s
Totaal tests 3 Foute tests 1 Totale kosten $0.054 Responstijd (gem.) 6.91s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
Totaal tests 3 Foute tests 1 Totale kosten $0.642 Responstijd (gem.) 2.38s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
Totaal tests 3 Foute tests 1 Totale kosten $3.478 Responstijd (gem.) 5.18s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
Totaal tests 3 Foute tests 1 Totale kosten $0.922 Responstijd (gem.) 2.98s
#28	Gemini 2.5 Flash medium	Google	7.7	8.2	$0.643	2/3	3.18s
Totaal tests 3 Foute tests 1 Totale kosten $0.643 Responstijd (gem.) 3.18s
#34	GPT-5.2 Chat none	OpenAI	7.7	8.0	$0.604	2/3	4.10s
Totaal tests 3 Foute tests 1 Totale kosten $0.604 Responstijd (gem.) 4.10s

Puzzeloplossing-ranglijst

Modellen filteren

Topmodellen op Puzzeloplossing-score

Puzzeloplossing-score vs totale kosten

Topmodellen op Responstijd (gem.)