Clasament Rezolvare de puzzle-uri x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Rezolvare de puzzle-uri, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

204

Modelul cel mai afectat

Qwen3.5-Flash 3

Motive de eșec

Răspuns greșit204 Nu a urmat instrucțiunile90 Eroare API12 Formatare suplimentară8 Timp expirat5 Fără răspuns3

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

145/145

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
Total teste 3 Teste greșite 1 Cost total $0.187 Timp de răspuns (mediu) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
Total teste 3 Teste greșite 1 Cost total $0.676 Timp de răspuns (mediu) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
Total teste 3 Teste greșite 1 Cost total $3.059 Timp de răspuns (mediu) 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
Total teste 3 Teste greșite 1 Cost total $1.017 Timp de răspuns (mediu) 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Total teste 3 Teste greșite 2 Cost total $0.200 Timp de răspuns (mediu) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
Total teste 3 Teste greșite 1 Cost total $0.286 Timp de răspuns (mediu) 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
Total teste 3 Teste greșite 1 Cost total $1.097 Timp de răspuns (mediu) 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
Total teste 3 Teste greșite 1 Cost total $0.352 Timp de răspuns (mediu) 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
Total teste 3 Teste greșite 2 Cost total $0.740 Timp de răspuns (mediu) 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
Total teste 3 Teste greșite 1 Cost total $0.115 Timp de răspuns (mediu) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
Total teste 3 Teste greșite 1 Cost total $0.117 Timp de răspuns (mediu) 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Total teste 3 Teste greșite 2 Cost total $1.036 Timp de răspuns (mediu) 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
Total teste 3 Teste greșite 1 Cost total $0.482 Timp de răspuns (mediu) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
Total teste 3 Teste greșite 1 Cost total $0.317 Timp de răspuns (mediu) 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
Total teste 3 Teste greșite 1 Cost total $0.106 Timp de răspuns (mediu) 1.71s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Rezolvare de puzzle-uri: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat