Clasament modele pentru Respectarea instrucțiunilor

Vezi ce modele AI se descurcă cel mai bine la Respectarea instrucțiunilor, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Metrică ↑.

Modele afișate

Media pentru Scor Respectarea instrucțiunilor

8.6

Cel mai bun model

Grok 4.1 Fast 3.0

Motive de eșec

Cu motivul de eșec Răspuns greșit61 Cu motivul de eșec Nu a urmat instrucțiunile19 Cu motivul de eșec Formatare suplimentară3 Cu motivul de eșec Fără răspuns2 Cu motivul de eșec Eroare API1 Cu motivul de eșec Timp expirat1

216/216

Rang	Model	Companie	Scor Respectarea instrucțiunilor	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
Total teste 2 Teste greșite 0 Cost total $0.000 Timp de răspuns (mediu) 15.4s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
Total teste 2 Teste greșite 0 Cost total $0.164 Timp de răspuns (mediu) 1.98s
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
Total teste 2 Teste greșite 0 Cost total $2.310 Timp de răspuns (mediu) 64.0s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
Total teste 2 Teste greșite 0 Cost total $0.026 Timp de răspuns (mediu) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
Total teste 2 Teste greșite 0 Cost total $5.599 Timp de răspuns (mediu) 3.52s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
Total teste 2 Teste greșite 0 Cost total $0.547 Timp de răspuns (mediu) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
Total teste 2 Teste greșite 0 Cost total $0.010 Timp de răspuns (mediu) 5.06s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
Total teste 2 Teste greșite 0 Cost total $1.006 Timp de răspuns (mediu) 7.00s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
Total teste 2 Teste greșite 0 Cost total $2.077 Timp de răspuns (mediu) 2.78s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
Total teste 2 Teste greșite 0 Cost total $0.286 Timp de răspuns (mediu) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
Total teste 2 Teste greșite 0 Cost total $1.097 Timp de răspuns (mediu) 12.4s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
Total teste 2 Teste greșite 0 Cost total $0.138 Timp de răspuns (mediu) 1.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
Total teste 2 Teste greșite 0 Cost total $0.779 Timp de răspuns (mediu) 18.6s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
Total teste 2 Teste greșite 0 Cost total $1.079 Timp de răspuns (mediu) 3.38s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
Total teste 2 Teste greșite 0 Cost total $0.476 Timp de răspuns (mediu) 2.61s

Clasament Respectarea instrucțiunilor

Filtrează modelele

Top modele după Scor Respectarea instrucțiunilor

Scor Respectarea instrucțiunilor vs cost total

Top modele după Timp de răspuns (mediu)