Clasament modele pentru Respectarea instrucțiunilor

Vezi ce modele AI se descurcă cel mai bine la Respectarea instrucțiunilor, care rămân fiabile și unde apar cele mai mari diferențe.

Modele afișate

Media pentru Scor Respectarea instrucțiunilor

8.5

Cel mai bun model

Gemini 3 Flash Preview 10.0

Motive de eșec

Cu motivul de eșec Răspuns greșit61 Cu motivul de eșec Nu a urmat instrucțiunile18 Cu motivul de eșec Formatare suplimentară3 Cu motivul de eșec Fără răspuns2 Cu motivul de eșec Eroare API1 Cu motivul de eșec Timp expirat1

210/210

Rang	Model	Companie	Scor Respectarea instrucțiunilor	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
Total teste 2 Teste greșite 0 Cost total $0.197 Timp de răspuns (mediu) 943ms
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
Total teste 2 Teste greșite 0 Cost total $0.387 Timp de răspuns (mediu) 2.53s
#64	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
Total teste 2 Teste greșite 0 Cost total $0.115 Timp de răspuns (mediu) 1.91s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
Total teste 2 Teste greșite 0 Cost total $1.036 Timp de răspuns (mediu) 12.5s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	2/2	20.2s
Total teste 2 Teste greșite 0 Cost total $0.317 Timp de răspuns (mediu) 20.2s
#72	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
Total teste 2 Teste greșite 0 Cost total $1.046 Timp de răspuns (mediu) 9.88s
#76	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	2/2	35.8s
Total teste 2 Teste greșite 0 Cost total $0.078 Timp de răspuns (mediu) 35.8s
#77	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	2/2	92.5s
Total teste 2 Teste greșite 0 Cost total $0.600 Timp de răspuns (mediu) 92.5s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	2/2	1.07s
Total teste 2 Teste greșite 0 Cost total $0.093 Timp de răspuns (mediu) 1.07s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
Total teste 2 Teste greșite 0 Cost total $0.101 Timp de răspuns (mediu) 17.5s
#85	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
Total teste 2 Teste greșite 0 Cost total $0.738 Timp de răspuns (mediu) 6.05s
#90	Qwen3.6 35B A3B medium	Qwen	10.0	6.7	$0.746	2/2	7.50s
Total teste 2 Teste greșite 0 Cost total $0.746 Timp de răspuns (mediu) 7.50s
#94	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
Total teste 2 Teste greșite 0 Cost total $0.505 Timp de răspuns (mediu) 1.46s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
Total teste 2 Teste greșite 0 Cost total $0.089 Timp de răspuns (mediu) 17.5s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	2/2	38.0s
Total teste 2 Teste greșite 0 Cost total $0.779 Timp de răspuns (mediu) 38.0s

Clasament Respectarea instrucțiunilor

Filtrează modelele

Top modele după Scor Respectarea instrucțiunilor

Scor Respectarea instrucțiunilor vs cost total

Top modele după Timp de răspuns (mediu)