Clasament Cultură generală x Eroare API

Vezi ce modele AI au cele mai mari șanse să întâmpine Eroare API la Cultură generală, ca să găsești mai repede punctele slabe. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Gemini 3 PRO Preview 1

Motive de eșec

Răspuns greșit168 Eroare API13 Fără răspuns13

Categorii

Programare45 Combinat26 Apelare instrumente17 Parsare și extragere de date14 Trucuri anti-AI14 Cultură generală13 Inteligență generală12 Rezolvare de puzzle-uri12 Specific domeniului7 Respectarea instrucțiunilor1

13/13

Rang	Model	Companie	Număr de Eroare API	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#133	Gemini 3 PRO Preview medium	Google	1	3.0	$0.385	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.385 Timp de răspuns (mediu) 0ms
#162	Ling-2.6-1T none	Inclusionai	1	3.0	$0.016	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.016 Timp de răspuns (mediu) 0ms
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.033 Timp de răspuns (mediu) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.009 Timp de răspuns (mediu) 0ms
#193	Elephant Alpha none	Openrouter	1	3.0	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#195	Elephant Alpha medium	Openrouter	1	3.0	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.015 Timp de răspuns (mediu) 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.004 Timp de răspuns (mediu) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 0ms
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/1	177.0s
Total teste 1 Teste greșite 1 Cost total $0.036 Timp de răspuns (mediu) 177.0s
#137	North Mini Code medium	Cohere	1	3.0	$0.000	0/1	305.0s
Total teste 1 Teste greșite 1 Cost total $0.000 Timp de răspuns (mediu) 305.0s

Filtrează modelele

Top modele după Număr de Eroare API

Număr de Eroare API vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Cultură generală: Eroare API

Filtrează modelele

Top modele după Număr de Eroare API

Număr de Eroare API vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat