Clasament modele pentru Apelare instrumente

Vezi ce modele AI se descurcă cel mai bine la Apelare instrumente, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Media pentru Scor Apelare instrumente

8.7

Cel mai bun model

Kimi K3 3.0

Motive de eșec

Cu motivul de eșec Eroare API17 Cu motivul de eșec Apel de instrument invalid9 Cu motivul de eșec Nu a urmat instrucțiunile8 Cu motivul de eșec Răspuns greșit3 Cu motivul de eșec Fără răspuns2

210/210

Rang	Model	Companie	Scor Apelare instrumente	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $3.112 Timp de răspuns (mediu) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.751 Timp de răspuns (mediu) 0ms
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.535 Timp de răspuns (mediu) 0ms
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $1.079 Timp de răspuns (mediu) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.746 Timp de răspuns (mediu) 0ms
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.163 Timp de răspuns (mediu) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.035 Timp de răspuns (mediu) 0ms
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.061 Timp de răspuns (mediu) 0ms
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.026 Timp de răspuns (mediu) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $5.599 Timp de răspuns (mediu) 0ms
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.547 Timp de răspuns (mediu) 0ms
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.010 Timp de răspuns (mediu) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#209	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.020 Timp de răspuns (mediu) 0ms

Clasament Apelare instrumente

Filtrează modelele

Top modele după Scor Apelare instrumente

Scor Apelare instrumente vs cost total

Top modele după Timp de răspuns (mediu)