Clasament al eșecurilor pentru Apel de instrument invalid

Vezi ce modele AI se lovesc cel mai des de Apel de instrument invalid, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

100

Modelul cel mai afectat

Laguna Xs.2 1

Categorii

În categoria Combinat91 În categoria Apelare instrumente9

83/83

Rang	Model	Companie	Număr de Apel de instrument invalid	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Total teste 19 Teste greșite 14 Cost total $0.004 Timp de răspuns (mediu) 806ms
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Total teste 18 Teste greșite 12 Cost total $0.057 Timp de răspuns (mediu) 1.11s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Total teste 18 Teste greșite 12 Cost total $0.087 Timp de răspuns (mediu) 1.19s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
Total teste 21 Teste greșite 16 Cost total $0.000 Timp de răspuns (mediu) 1.22s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
Total teste 21 Teste greșite 15 Cost total $0.000 Timp de răspuns (mediu) 1.27s
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
Total teste 22 Teste greșite 20 Cost total $0.007 Timp de răspuns (mediu) 1.45s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Total teste 22 Teste greșite 16 Cost total $0.142 Timp de răspuns (mediu) 1.50s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Total teste 22 Teste greșite 17 Cost total $0.008 Timp de răspuns (mediu) 1.55s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Total teste 22 Teste greșite 14 Cost total $0.349 Timp de răspuns (mediu) 1.65s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
Total teste 22 Teste greșite 8 Cost total $0.300 Timp de răspuns (mediu) 2.65s
#78	Mercury 2 medium	Inception	1	7.0	$0.093	10/22	2.72s
Total teste 22 Teste greșite 12 Cost total $0.093 Timp de răspuns (mediu) 2.72s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
Total teste 19 Teste greșite 15 Cost total $0.009 Timp de răspuns (mediu) 2.89s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Total teste 22 Teste greșite 16 Cost total $0.147 Timp de răspuns (mediu) 3.50s
#124	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
Total teste 22 Teste greșite 15 Cost total $0.062 Timp de răspuns (mediu) 3.74s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Total teste 22 Teste greșite 9 Cost total $0.117 Timp de răspuns (mediu) 4.27s

1 2 3 4 5 6

→

Eșecuri Apel de instrument invalid

Filtrează modelele

Top modele după Număr de Apel de instrument invalid

Număr de Apel de instrument invalid vs Scor

Top modele după Timp de răspuns (mediu)