Clasament modele pentru Respectarea instrucțiunilor

Vezi ce modele AI se descurcă cel mai bine la Respectarea instrucțiunilor, care rămân fiabile și unde apar cele mai mari diferențe.

Modele afișate

Media pentru Scor Respectarea instrucțiunilor

8.6

Cel mai bun model

Gemini 3 Flash Preview 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit61 Cu motivul de eșec Nu a urmat instrucțiunile19 Cu motivul de eșec Formatare suplimentară3 Cu motivul de eșec Fără răspuns2 Cu motivul de eșec Eroare API1 Cu motivul de eșec Timp expirat1

216/216

Rang	Model	Companie	Scor Respectarea instrucțiunilor	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
Total teste 2 Teste greșite 0 Cost total $1.017 Timp de răspuns (mediu) 1.79s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
Total teste 2 Teste greșite 0 Cost total $0.352 Timp de răspuns (mediu) 2.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
Total teste 2 Teste greșite 0 Cost total $0.740 Timp de răspuns (mediu) 5.39s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
Total teste 2 Teste greșite 0 Cost total $0.177 Timp de răspuns (mediu) 7.02s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
Total teste 2 Teste greșite 0 Cost total $0.117 Timp de răspuns (mediu) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
Total teste 2 Teste greșite 0 Cost total $1.166 Timp de răspuns (mediu) 1.37s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
Total teste 2 Teste greșite 0 Cost total $0.482 Timp de răspuns (mediu) 2.67s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
Total teste 2 Teste greșite 0 Cost total $0.467 Timp de răspuns (mediu) 2.58s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
Total teste 2 Teste greșite 0 Cost total $0.187 Timp de răspuns (mediu) 2.77s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
Total teste 2 Teste greșite 0 Cost total $0.457 Timp de răspuns (mediu) 3.74s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
Total teste 2 Teste greșite 0 Cost total $0.082 Timp de răspuns (mediu) 1.80s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
Total teste 2 Teste greșite 0 Cost total $0.333 Timp de răspuns (mediu) 3.36s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
Total teste 2 Teste greșite 0 Cost total $0.019 Timp de răspuns (mediu) 7.63s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
Total teste 2 Teste greșite 0 Cost total $0.067 Timp de răspuns (mediu) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
Total teste 2 Teste greșite 0 Cost total $0.000 Timp de răspuns (mediu) 4.18s

Clasament Respectarea instrucțiunilor

Filtrează modelele

Top modele după Scor Respectarea instrucțiunilor

Scor Respectarea instrucțiunilor vs cost total

Top modele după Timp de răspuns (mediu)