Clasament modele pentru Rezolvare de puzzle-uri

Vezi ce modele AI se descurcă cel mai bine la Rezolvare de puzzle-uri, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Metrică ↑.

Modele afișate

Media pentru Scor Rezolvare de puzzle-uri

6.7

Cel mai bun model

Step 3.5 Flash 0.0

Motive de eșec

Cu motivul de eșec Răspuns greșit201 Cu motivul de eșec Nu a urmat instrucțiunile90 Cu motivul de eșec Eroare API12 Cu motivul de eșec Formatare suplimentară8 Cu motivul de eșec Timp expirat5 Cu motivul de eșec Fără răspuns3

210/210

Rang	Model	Companie	Scor Rezolvare de puzzle-uri	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#171	North Mini Code none	Cohere	3.5	5.1	$0.000	0/3	24.4s
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 24.4s
#174	GPT-4o-mini none	OpenAI	3.5	5.0	$0.010	0/3	1.21s
Total teste 3 Teste greșite 3 Cost total $0.010 Timp de răspuns (mediu) 1.21s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
Total teste 3 Teste greșite 3 Cost total $0.077 Timp de răspuns (mediu) 2.47s
#183	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
Total teste 3 Teste greșite 3 Cost total $0.008 Timp de răspuns (mediu) 1.97s
#188	Cobuddy medium	Baidu	3.6	4.7	$0.000	0/3	12.8s
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 12.8s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
Total teste 3 Teste greșite 3 Cost total $0.048 Timp de răspuns (mediu) 1.87s
#127	Qwen3.5-35B-A3B none	Qwen	3.7	6.1	$0.106	0/3	1.35s
Total teste 3 Teste greșite 3 Cost total $0.106 Timp de răspuns (mediu) 1.35s
#142	Qwen3.5-122B-A10B none	Qwen	3.8	5.7	$0.247	0/3	1.00s
Total teste 3 Teste greșite 3 Cost total $0.247 Timp de răspuns (mediu) 1.00s
#210	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
Total teste 3 Teste greșite 3 Cost total $0.001 Timp de răspuns (mediu) 1.78s
#111	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
Total teste 3 Teste greșite 3 Cost total $0.044 Timp de răspuns (mediu) 2.74s
#53	GPT-5.4 Nano medium	OpenAI	4.1	7.5	$0.138	0/3	3.79s
Total teste 3 Teste greșite 3 Cost total $0.138 Timp de răspuns (mediu) 3.79s
#193	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 807ms
#116	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
Total teste 3 Teste greșite 2 Cost total $0.066 Timp de răspuns (mediu) 2.78s
#121	gpt-oss-120b medium	OpenAI	5.3	6.1	$0.019	1/3	21.7s
Total teste 3 Teste greșite 2 Cost total $0.019 Timp de răspuns (mediu) 21.7s
#146	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	3.40s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 3.40s

Clasament Rezolvare de puzzle-uri

Filtrează modelele

Top modele după Scor Rezolvare de puzzle-uri

Scor Rezolvare de puzzle-uri vs cost total

Top modele după Timp de răspuns (mediu)