Clasament modele pentru Rezolvare de puzzle-uri

Vezi ce modele AI se descurcă cel mai bine la Rezolvare de puzzle-uri, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↓.

Modele afișate

Media pentru Scor Rezolvare de puzzle-uri

6.7

Cel mai bun model

Gemini 3.6 Flash 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit204 Cu motivul de eșec Nu a urmat instrucțiunile90 Cu motivul de eșec Eroare API12 Cu motivul de eșec Formatare suplimentară8 Cu motivul de eșec Timp expirat5 Cu motivul de eșec Fără răspuns3

216/216

Rang	Model	Companie	Scor Rezolvare de puzzle-uri	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#160	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	$0.068	1/3	1.30s
Total teste 3 Teste greșite 2 Cost total $0.068 Timp de răspuns (mediu) 1.30s
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
Total teste 3 Teste greșite 2 Cost total $0.015 Timp de răspuns (mediu) 744ms
#165	GPT-5.6 Luna none	OpenAI	5.3	5.4	$0.142	1/3	790ms
Total teste 3 Teste greșite 2 Cost total $0.142 Timp de răspuns (mediu) 790ms
#170	Inkling none	Thinkingmachines	5.6	5.2	$0.147	1/3	931ms
Total teste 3 Teste greșite 2 Cost total $0.147 Timp de răspuns (mediu) 931ms
#174	MiMo-V2.5 none	Xiaomi	5.4	5.1	$0.025	1/3	2.13s
Total teste 3 Teste greșite 2 Cost total $0.025 Timp de răspuns (mediu) 2.13s
#176	GLM 5 Turbo none	Z.ai	5.5	5.1	$0.047	1/3	2.65s
Total teste 3 Teste greșite 2 Cost total $0.047 Timp de răspuns (mediu) 2.65s
#178	MiniMax M2.7 medium	Minimax	5.9	5.0	$0.163	1/3	24.9s
Total teste 3 Teste greșite 2 Cost total $0.163 Timp de răspuns (mediu) 24.9s
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 7.52s
#182	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
Total teste 3 Teste greșite 2 Cost total $0.016 Timp de răspuns (mediu) 1.20s
#183	Nemotron 3 Super none	NVIDIA	5.5	4.9	$0.008	1/3	2.36s
Total teste 3 Teste greșite 2 Cost total $0.008 Timp de răspuns (mediu) 2.36s
#186	GPT-5.4 Nano none	OpenAI	5.4	4.8	$0.041	1/3	1.25s
Total teste 3 Teste greșite 2 Cost total $0.041 Timp de răspuns (mediu) 1.25s
#187	Grok 4.20 Multi Agent Beta medium	X AI	6.7	4.8	$5.599	1/3	5.19s
Total teste 3 Teste greșite 2 Cost total $5.599 Timp de răspuns (mediu) 5.19s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 5.35s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
Total teste 3 Teste greșite 2 Cost total $0.069 Timp de răspuns (mediu) 7.40s
#192	Laguna M.1 medium	Poolside	5.3	4.7	$0.033	1/3	10.2s
Total teste 3 Teste greșite 2 Cost total $0.033 Timp de răspuns (mediu) 10.2s

Clasament Rezolvare de puzzle-uri

Filtrează modelele

Top modele după Scor Rezolvare de puzzle-uri

Scor Rezolvare de puzzle-uri vs cost total

Top modele după Timp de răspuns (mediu)