Clasament Rezolvare de puzzle-uri x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Rezolvare de puzzle-uri, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

204

Modelul cel mai afectat

Qwen3.5-Flash 3

Motive de eșec

Răspuns greșit204 Nu a urmat instrucțiunile90 Eroare API12 Formatare suplimentară8 Timp expirat5 Fără răspuns3

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

145/145

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Total teste 3 Teste greșite 2 Cost total $0.779 Timp de răspuns (mediu) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Total teste 3 Teste greșite 1 Cost total $0.535 Timp de răspuns (mediu) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
Total teste 3 Teste greșite 1 Cost total $0.777 Timp de răspuns (mediu) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Total teste 3 Teste greșite 2 Cost total $0.078 Timp de răspuns (mediu) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Total teste 3 Teste greșite 2 Cost total $0.600 Timp de răspuns (mediu) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Total teste 3 Teste greșite 2 Cost total $0.093 Timp de răspuns (mediu) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Total teste 3 Teste greșite 1 Cost total $0.101 Timp de răspuns (mediu) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
Total teste 3 Teste greșite 1 Cost total $0.524 Timp de răspuns (mediu) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Total teste 3 Teste greșite 2 Cost total $0.187 Timp de răspuns (mediu) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
Total teste 3 Teste greșite 1 Cost total $0.544 Timp de răspuns (mediu) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
Total teste 3 Teste greșite 1 Cost total $0.085 Timp de răspuns (mediu) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
Total teste 3 Teste greșite 1 Cost total $0.746 Timp de răspuns (mediu) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
Total teste 3 Teste greșite 1 Cost total $0.145 Timp de răspuns (mediu) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
Total teste 3 Teste greșite 1 Cost total $0.476 Timp de răspuns (mediu) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
Total teste 3 Teste greșite 1 Cost total $0.457 Timp de răspuns (mediu) 10.2s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Rezolvare de puzzle-uri: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat