Clasament modele pentru Apelare instrumente

Vezi ce modele AI se descurcă cel mai bine la Apelare instrumente, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Media pentru Scor Apelare instrumente

8.7

Cel mai bun model

Kimi K3 3.0

Motive de eșec

Cu motivul de eșec Eroare API17 Cu motivul de eșec Apel de instrument invalid9 Cu motivul de eșec Nu a urmat instrucțiunile8 Cu motivul de eșec Răspuns greșit3 Cu motivul de eșec Fără răspuns2

210/210

Rang	Model	Companie	Scor Apelare instrumente	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.001 Timp de răspuns (mediu) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
Total teste 1 Teste greșite 0 Cost total $0.030 Timp de răspuns (mediu) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Total teste 1 Teste greșite 0 Cost total $0.021 Timp de răspuns (mediu) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Total teste 1 Teste greșite 0 Cost total $0.008 Timp de răspuns (mediu) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Total teste 1 Teste greșite 0 Cost total $0.022 Timp de răspuns (mediu) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
Total teste 1 Teste greșite 0 Cost total $0.093 Timp de răspuns (mediu) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
Total teste 1 Teste greșite 0 Cost total $0.017 Timp de răspuns (mediu) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Total teste 1 Teste greșite 1 Cost total $0.004 Timp de răspuns (mediu) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Total teste 1 Teste greșite 0 Cost total $0.247 Timp de răspuns (mediu) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
Total teste 1 Teste greșite 0 Cost total $0.007 Timp de răspuns (mediu) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
Total teste 1 Teste greșite 0 Cost total $0.025 Timp de răspuns (mediu) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
Total teste 1 Teste greșite 0 Cost total $0.106 Timp de răspuns (mediu) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Total teste 1 Teste greșite 1 Cost total $0.095 Timp de răspuns (mediu) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Total teste 1 Teste greșite 0 Cost total $0.025 Timp de răspuns (mediu) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Total teste 1 Teste greșite 0 Cost total $0.025 Timp de răspuns (mediu) 2.47s

Clasament Apelare instrumente

Filtrează modelele

Top modele după Scor Apelare instrumente

Scor Apelare instrumente vs cost total

Top modele după Timp de răspuns (mediu)