Clasament Programare x Răspuns greșit

Eșecuri pe categorii AI BENCHY

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Programare, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

230

Modelul cel mai afectat

Qwen3.6 Flash 3

Motive de eșec

Răspuns greșit230 Eroare API43 Timp expirat25 Fără răspuns18 Nu a urmat instrucțiunile16 Formatare suplimentară12

Categorii

Specific domeniului368 Trucuri anti-AI270 Programare230 Rezolvare de puzzle-uri173 Cultură generală150 Combinat58 Respectarea instrucțiunilor56 Inteligență generală49 Parsare și extragere de date36 Apelare instrumente3

134/134

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#98	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Total teste 3 Teste greșite 2 Cost total $0.018 Timp de răspuns (mediu) 967ms
#99	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
Total teste 3 Teste greșite 2 Cost total $0.028 Timp de răspuns (mediu) 1.53s
#102	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
Total teste 3 Teste greșite 2 Cost total $0.225 Timp de răspuns (mediu) 1.39s
#105	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
Total teste 3 Teste greșite 2 Cost total $0.231 Timp de răspuns (mediu) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
Total teste 3 Teste greșite 2 Cost total $0.019 Timp de răspuns (mediu) 2.83s
#108	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
Total teste 3 Teste greșite 2 Cost total $0.141 Timp de răspuns (mediu) 4.61s
#109	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Total teste 3 Teste greșite 2 Cost total $0.016 Timp de răspuns (mediu) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Total teste 3 Teste greșite 2 Cost total $0.013 Timp de răspuns (mediu) 831ms
#112	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Total teste 3 Teste greșite 2 Cost total $0.013 Timp de răspuns (mediu) 938ms
#113	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Total teste 3 Teste greșite 2 Cost total $0.005 Timp de răspuns (mediu) 850ms
#114	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
Total teste 3 Teste greșite 2 Cost total $0.004 Timp de răspuns (mediu) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Total teste 3 Teste greșite 2 Cost total $0.027 Timp de răspuns (mediu) 1.02s
#117	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Total teste 3 Teste greșite 2 Cost total $0.130 Timp de răspuns (mediu) 1.00s
#119	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
Total teste 3 Teste greșite 2 Cost total $0.015 Timp de răspuns (mediu) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
Total teste 3 Teste greșite 2 Cost total $0.012 Timp de răspuns (mediu) 1.39s

←

1 3 4 5 9

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Programare: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat