Clasament modele pentru Respectarea instrucțiunilor

Vezi ce modele AI se descurcă cel mai bine la Respectarea instrucțiunilor, care rămân fiabile și unde apar cele mai mari diferențe.

Modele afișate

Media pentru Scor Respectarea instrucțiunilor

8.5

Cel mai bun model

Gemini 3 Flash Preview 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit61 Cu motivul de eșec Nu a urmat instrucțiunile18 Cu motivul de eșec Formatare suplimentară3 Cu motivul de eșec Fără răspuns2 Cu motivul de eșec Eroare API1 Cu motivul de eșec Timp expirat1

210/210

Rang	Model	Companie	Scor Respectarea instrucțiunilor	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#100	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
Total teste 2 Teste greșite 0 Cost total $0.018 Timp de răspuns (mediu) 6.16s
#104	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
Total teste 2 Teste greșite 0 Cost total $0.646 Timp de răspuns (mediu) 1.49s
#105	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
Total teste 2 Teste greșite 0 Cost total $0.621 Timp de răspuns (mediu) 1.52s
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
Total teste 2 Teste greșite 0 Cost total $0.052 Timp de răspuns (mediu) 1.13s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
Total teste 2 Teste greșite 0 Cost total $0.073 Timp de răspuns (mediu) 1.67s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
Total teste 2 Teste greșite 0 Cost total $0.163 Timp de răspuns (mediu) 12.8s
#113	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
Total teste 2 Teste greșite 0 Cost total $0.043 Timp de răspuns (mediu) 4.28s
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
Total teste 2 Teste greșite 0 Cost total $0.139 Timp de răspuns (mediu) 63.5s
#116	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
Total teste 2 Teste greșite 0 Cost total $0.066 Timp de răspuns (mediu) 1.06s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
Total teste 2 Teste greșite 0 Cost total $0.017 Timp de răspuns (mediu) 590ms
#119	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
Total teste 2 Teste greșite 0 Cost total $0.837 Timp de răspuns (mediu) 24.4s
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
Total teste 2 Teste greșite 0 Cost total $0.047 Timp de răspuns (mediu) 932ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
Total teste 2 Teste greșite 0 Cost total $0.046 Timp de răspuns (mediu) 859ms
#129	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
Total teste 2 Teste greșite 0 Cost total $0.095 Timp de răspuns (mediu) 1.46s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
Total teste 2 Teste greșite 0 Cost total $0.048 Timp de răspuns (mediu) 34.4s

Clasament Respectarea instrucțiunilor

Filtrează modelele

Top modele după Scor Respectarea instrucțiunilor

Scor Respectarea instrucțiunilor vs cost total

Top modele după Timp de răspuns (mediu)