Clasament al eșecurilor pentru Formatare suplimentară

Vezi ce modele AI se lovesc cel mai des de Formatare suplimentară, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Teste corecte ↓.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Kimi K3 1

Categorii

În categoria Trucuri anti-AI20 În categoria Programare18 În categoria Specific domeniului17 În categoria Rezolvare de puzzle-uri8 În categoria Parsare și extragere de date6 În categoria Respectarea instrucțiunilor3 În categoria Combinat1

42/42

Rang	Model	Companie	Număr de Formatare suplimentară	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#101	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Total teste 22 Teste greșite 10 Cost total $0.082 Timp de răspuns (mediu) 32.2s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Total teste 21 Teste greșite 11 Cost total $0.683 Timp de răspuns (mediu) 41.2s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total teste 22 Teste greșite 12 Cost total $0.200 Timp de răspuns (mediu) 79.1s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Total teste 22 Teste greșite 12 Cost total $0.096 Timp de răspuns (mediu) 11.6s
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Total teste 18 Teste greșite 10 Cost total $5.599 Timp de răspuns (mediu) 9.69s
#184	Hunter Alpha medium	OpenRouter	1	4.7	$0.000	8/18	10.3s
Total teste 18 Teste greșite 10 Cost total $0.000 Timp de răspuns (mediu) 10.3s
#137	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Total teste 22 Teste greșite 13 Cost total $0.000 Timp de răspuns (mediu) 137.1s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Total teste 21 Teste greșite 13 Cost total $0.021 Timp de răspuns (mediu) 2.44s
#112	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
Total teste 22 Teste greșite 14 Cost total $0.548 Timp de răspuns (mediu) 6.04s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Total teste 22 Teste greșite 14 Cost total $0.048 Timp de răspuns (mediu) 8.42s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Total teste 21 Teste greșite 14 Cost total $0.000 Timp de răspuns (mediu) 9.88s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Total teste 18 Teste greșite 12 Cost total $0.057 Timp de răspuns (mediu) 1.11s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Total teste 22 Teste greșite 15 Cost total $0.044 Timp de răspuns (mediu) 5.18s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
Total teste 22 Teste greșite 15 Cost total $0.077 Timp de răspuns (mediu) 15.9s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
Total teste 22 Teste greșite 15 Cost total $0.041 Timp de răspuns (mediu) 10.1s

Eșecuri Formatare suplimentară

Filtrează modelele

Top modele după Număr de Formatare suplimentară

Număr de Formatare suplimentară vs Scor

Top modele după Timp de răspuns (mediu)