Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

1558

Modelul cel mai afectat

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorii

În categoria Specific domeniului412 În categoria Trucuri anti-AI293 În categoria Programare252 În categoria Rezolvare de puzzle-uri201 În categoria Cultură generală168 În categoria Combinat68 În categoria Respectarea instrucțiunilor61 În categoria Inteligență generală59 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

209/209

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Total teste 22 Teste greșite 14 Cost total $0.349 Timp de răspuns (mediu) 1.65s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Total teste 22 Teste greșite 13 Cost total $0.046 Timp de răspuns (mediu) 1.75s
#120	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Total teste 22 Teste greșite 12 Cost total $0.047 Timp de răspuns (mediu) 1.86s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Total teste 22 Teste greșite 17 Cost total $0.010 Timp de răspuns (mediu) 1.99s
#139	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Total teste 22 Teste greșite 15 Cost total $0.397 Timp de răspuns (mediu) 2.07s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Total teste 22 Teste greșite 11 Cost total $0.524 Timp de răspuns (mediu) 2.16s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Total teste 21 Teste greșite 14 Cost total $0.045 Timp de răspuns (mediu) 2.27s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Total teste 22 Teste greșite 11 Cost total $0.544 Timp de răspuns (mediu) 2.36s
#157	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Total teste 21 Teste greșite 13 Cost total $0.021 Timp de răspuns (mediu) 2.44s
#180	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Total teste 22 Teste greșite 18 Cost total $0.041 Timp de răspuns (mediu) 2.57s
#88	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Total teste 22 Teste greșite 8 Cost total $0.300 Timp de răspuns (mediu) 2.65s
#78	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Total teste 22 Teste greșite 12 Cost total $0.093 Timp de răspuns (mediu) 2.72s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Total teste 21 Teste greșite 17 Cost total $0.025 Timp de răspuns (mediu) 2.76s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Total teste 21 Teste greșite 15 Cost total $0.047 Timp de răspuns (mediu) 2.82s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Total teste 19 Teste greșite 15 Cost total $0.009 Timp de răspuns (mediu) 2.89s

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)