Clasament Programare x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Programare, ca să găsești mai repede punctele slabe. Sortează după: Număr de eșecuri ↑.

Modele afișate

Eșecuri totale

230

Modelul cel mai afectat

Gemini 3 Flash Preview 1

Motive de eșec

Răspuns greșit230 Eroare API43 Timp expirat23 Fără răspuns18 Nu a urmat instrucțiunile16 Formatare suplimentară12

Categorii

Specific domeniului367 Trucuri anti-AI270 Programare230 Rezolvare de puzzle-uri172 Cultură generală149 Combinat58 Respectarea instrucțiunilor56 Inteligență generală49 Parsare și extragere de date36 Apelare instrumente3

134/134

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Total teste 3 Teste greșite 1 Cost total $0.667 Timp de răspuns (mediu) 84.4s
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
Total teste 3 Teste greșite 1 Cost total $0.349 Timp de răspuns (mediu) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
Total teste 3 Teste greșite 1 Cost total $1.054 Timp de răspuns (mediu) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
Total teste 3 Teste greșite 1 Cost total $3.679 Timp de răspuns (mediu) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Total teste 3 Teste greșite 1 Cost total $0.960 Timp de răspuns (mediu) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
Total teste 3 Teste greșite 1 Cost total $0.679 Timp de răspuns (mediu) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.129	2/3	41.0s
Total teste 3 Teste greșite 1 Cost total $0.129 Timp de răspuns (mediu) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
Total teste 3 Teste greșite 1 Cost total $1.210 Timp de răspuns (mediu) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Total teste 3 Teste greșite 1 Cost total $0.175 Timp de răspuns (mediu) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
Total teste 3 Teste greșite 1 Cost total $0.393 Timp de răspuns (mediu) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
Total teste 3 Teste greșite 1 Cost total $0.376 Timp de răspuns (mediu) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Total teste 3 Teste greșite 1 Cost total $1.696 Timp de răspuns (mediu) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
Total teste 3 Teste greșite 1 Cost total $0.027 Timp de răspuns (mediu) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
Total teste 3 Teste greșite 1 Cost total $0.379 Timp de răspuns (mediu) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
Total teste 3 Teste greșite 1 Cost total $0.852 Timp de răspuns (mediu) 9.14s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Programare: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat