Clasament Programare x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Programare, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

230

Modelul cel mai afectat

Qwen3.6 Flash 3

Motive de eșec

Răspuns greșit230 Eroare API43 Timp expirat23 Fără răspuns18 Nu a urmat instrucțiunile16 Formatare suplimentară12

Categorii

Specific domeniului367 Trucuri anti-AI270 Programare230 Rezolvare de puzzle-uri172 Cultură generală149 Combinat58 Respectarea instrucțiunilor56 Inteligență generală49 Parsare și extragere de date36 Apelare instrumente3

134/134

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#57	GPT-5.3 Chat none	OpenAI	2	5.6	$0.433	1/3	10.5s
Total teste 3 Teste greșite 2 Cost total $0.433 Timp de răspuns (mediu) 10.5s
#58	GPT-5.4 Nano medium	OpenAI	2	6.1	$0.107	1/3	19.1s
Total teste 3 Teste greșite 2 Cost total $0.107 Timp de răspuns (mediu) 19.1s
#64	Gemini 3 Flash Preview low	Google	2	5.8	$0.111	1/3	6.00s
Total teste 3 Teste greșite 2 Cost total $0.111 Timp de răspuns (mediu) 6.00s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Total teste 3 Teste greșite 2 Cost total $0.609 Timp de răspuns (mediu) 109.9s
#68	GLM 5V Turbo medium	Z.ai	2	6.0	$0.457	1/3	63.4s
Total teste 3 Teste greșite 2 Cost total $0.457 Timp de răspuns (mediu) 63.4s
#72	Qwen3.7 Plus none	Qwen	2	5.5	$0.023	1/3	2.15s
Total teste 3 Teste greșite 2 Cost total $0.023 Timp de răspuns (mediu) 2.15s
#73	GLM 5.2 none	Z.ai	2	3.7	$0.030	0/3	7.55s
Total teste 3 Teste greșite 3 Cost total $0.030 Timp de răspuns (mediu) 7.55s
#77	Laguna XS 2.1 medium	Poolside	2	5.5	$0.036	1/3	70.3s
Total teste 3 Teste greșite 2 Cost total $0.036 Timp de răspuns (mediu) 70.3s
#80	Gemini 3 Flash Preview none	Google	2	5.5	$0.025	1/3	1.80s
Total teste 3 Teste greșite 2 Cost total $0.025 Timp de răspuns (mediu) 1.80s
#81	Qwen3.7 Max none	Qwen	2	5.5	$0.054	1/3	1.35s
Total teste 3 Teste greșite 2 Cost total $0.054 Timp de răspuns (mediu) 1.35s
#83	Qwen3.5-Flash medium	Qwen	2	3.7	$0.080	0/3	58.9s
Total teste 3 Teste greșite 3 Cost total $0.080 Timp de răspuns (mediu) 58.9s
#89	MiMo-V2.5 medium	Xiaomi	2	6.2	$0.061	1/3	97.1s
Total teste 3 Teste greșite 2 Cost total $0.061 Timp de răspuns (mediu) 97.1s
#91	gpt-oss-120b medium	OpenAI	2	5.9	$0.013	1/3	38.4s
Total teste 3 Teste greșite 2 Cost total $0.013 Timp de răspuns (mediu) 38.4s
#92	GPT-5 Nano medium	OpenAI	2	7.0	$0.081	1/3	41.6s
Total teste 3 Teste greșite 2 Cost total $0.081 Timp de răspuns (mediu) 41.6s
#95	Gemini 3.1 Flash Lite Preview low	Google	2	5.5	$0.026	1/3	1.39s
Total teste 3 Teste greșite 2 Cost total $0.026 Timp de răspuns (mediu) 1.39s

←

1 2 3 4 9

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Programare: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat