Clasament modele pentru Apelare instrumente

Vezi ce modele AI se descurcă cel mai bine la Apelare instrumente, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↑.

Modele afișate

Media pentru Scor Apelare instrumente

8.8

Cel mai bun model

GPT-5.2 4.7

Motive de eșec

Cu motivul de eșec Eroare API17 Cu motivul de eșec Apel de instrument invalid9 Cu motivul de eșec Nu a urmat instrucțiunile8 Cu motivul de eșec Răspuns greșit3 Cu motivul de eșec Fără răspuns2

216/216

Rang	Model	Companie	Scor Apelare instrumente	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
Total teste 1 Teste greșite 1 Cost total $0.015 Timp de răspuns (mediu) 3.39s
#208	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.547 Timp de răspuns (mediu) 0ms
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
Total teste 1 Teste greșite 1 Cost total $0.008 Timp de răspuns (mediu) 5.51s
#211	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Total teste 1 Teste greșite 1 Cost total $0.004 Timp de răspuns (mediu) 1.93s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.010 Timp de răspuns (mediu) 0ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#215	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.020 Timp de răspuns (mediu) 0ms
#216	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.001 Timp de răspuns (mediu) 0ms
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
Total teste 1 Teste greșite 0 Cost total $0.831 Timp de răspuns (mediu) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
Total teste 1 Teste greșite 0 Cost total $1.785 Timp de răspuns (mediu) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
Total teste 1 Teste greșite 0 Cost total $0.742 Timp de răspuns (mediu) 12.6s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
Total teste 1 Teste greșite 0 Cost total $1.976 Timp de răspuns (mediu) 4.96s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
Total teste 1 Teste greșite 0 Cost total $0.971 Timp de răspuns (mediu) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
Total teste 1 Teste greșite 0 Cost total $0.517 Timp de răspuns (mediu) 4.78s

Clasament Apelare instrumente

Filtrează modelele

Top modele după Scor Apelare instrumente

Scor Apelare instrumente vs cost total

Top modele după Timp de răspuns (mediu)