Clasament al eșecurilor pentru Formatare suplimentară

Vezi ce modele AI se lovesc cel mai des de Formatare suplimentară, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Scor ↓.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Kimi K3 1

Categorii

În categoria Trucuri anti-AI20 În categoria Programare18 În categoria Specific domeniului17 În categoria Rezolvare de puzzle-uri8 În categoria Parsare și extragere de date6 În categoria Respectarea instrucțiunilor3 În categoria Combinat1

42/42

Rang	Model	Companie	Număr de Formatare suplimentară	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
Total teste 22 Teste greșite 6 Cost total $3.112 Timp de răspuns (mediu) 122.5s
#40	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$2.057	14/22	25.9s
Total teste 22 Teste greșite 8 Cost total $2.057 Timp de răspuns (mediu) 25.9s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Total teste 22 Teste greșite 6 Cost total $2.077 Timp de răspuns (mediu) 12.7s
#43	Claude Opus 4.6 medium	Anthropic	5	7.7	$3.059	13/22	34.3s
Total teste 22 Teste greșite 9 Cost total $3.059 Timp de răspuns (mediu) 34.3s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total teste 22 Teste greșite 12 Cost total $0.200 Timp de răspuns (mediu) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Total teste 22 Teste greșite 10 Cost total $0.286 Timp de răspuns (mediu) 75.0s
#48	Grok Build 0.1 medium	X AI	3	7.6	$1.097	14/22	52.1s
Total teste 22 Teste greșite 8 Cost total $1.097 Timp de răspuns (mediu) 52.1s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total teste 22 Teste greșite 9 Cost total $1.627 Timp de răspuns (mediu) 111.9s
#63	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
Total teste 22 Teste greșite 10 Cost total $0.661 Timp de răspuns (mediu) 8.12s
#66	Claude Opus 4.8 none	Anthropic	3	7.3	$1.166	13/22	4.91s
Total teste 22 Teste greșite 9 Cost total $1.166 Timp de răspuns (mediu) 4.91s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Total teste 22 Teste greșite 9 Cost total $0.779 Timp de răspuns (mediu) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Total teste 22 Teste greșite 9 Cost total $0.535 Timp de răspuns (mediu) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Total teste 22 Teste greșite 10 Cost total $0.777 Timp de răspuns (mediu) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Total teste 22 Teste greșite 12 Cost total $0.096 Timp de răspuns (mediu) 11.6s
#84	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Total teste 22 Teste greșite 10 Cost total $0.187 Timp de răspuns (mediu) 33.9s

Eșecuri Formatare suplimentară

Filtrează modelele

Top modele după Număr de Formatare suplimentară

Număr de Formatare suplimentară vs Scor

Top modele după Timp de răspuns (mediu)