Clasament modele pentru Apelare instrumente

Vezi ce modele AI se descurcă cel mai bine la Apelare instrumente, care rămân fiabile și unde apar cele mai mari diferențe. Sortează după: Teste corecte ↓.

Modele afișate

Media pentru Scor Apelare instrumente

8.8

Cel mai bun model

Gemini 3.6 Flash 10.0

Motive de eșec

Cu motivul de eșec Eroare API17 Cu motivul de eșec Apel de instrument invalid9 Cu motivul de eșec Nu a urmat instrucțiunile8 Cu motivul de eșec Răspuns greșit3 Cu motivul de eșec Fără răspuns2

216/216

Rang	Model	Companie	Scor Apelare instrumente	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
Total teste 1 Teste greșite 0 Cost total $0.096 Timp de răspuns (mediu) 7.40s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
Total teste 1 Teste greșite 0 Cost total $0.524 Timp de răspuns (mediu) 3.70s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
Total teste 1 Teste greșite 0 Cost total $0.187 Timp de răspuns (mediu) 16.9s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
Total teste 1 Teste greșite 0 Cost total $0.738 Timp de răspuns (mediu) 4.00s
#90	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
Total teste 1 Teste greșite 0 Cost total $1.207 Timp de răspuns (mediu) 2.79s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
Total teste 1 Teste greșite 0 Cost total $0.544 Timp de răspuns (mediu) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
Total teste 1 Teste greșite 0 Cost total $0.300 Timp de răspuns (mediu) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
Total teste 1 Teste greșite 0 Cost total $0.085 Timp de răspuns (mediu) 3.35s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
Total teste 1 Teste greșite 0 Cost total $0.145 Timp de răspuns (mediu) 1.76s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
Total teste 1 Teste greșite 0 Cost total $0.391 Timp de răspuns (mediu) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
Total teste 1 Teste greșite 0 Cost total $0.476 Timp de răspuns (mediu) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
Total teste 1 Teste greșite 0 Cost total $0.505 Timp de răspuns (mediu) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
Total teste 1 Teste greșite 0 Cost total $0.089 Timp de răspuns (mediu) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
Total teste 1 Teste greșite 0 Cost total $0.128 Timp de răspuns (mediu) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
Total teste 1 Teste greșite 0 Cost total $0.469 Timp de răspuns (mediu) 10.0s

Clasament Apelare instrumente

Filtrează modelele

Top modele după Scor Apelare instrumente

Scor Apelare instrumente vs cost total

Top modele după Timp de răspuns (mediu)