Navigare
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs OpenAI: GPT-5.4

Rezumat

Comparație benchmark Claude Sonnet 4.6 vs GPT-5.4: GPT-5.4 conduce la scorul mediu cu 8.5 vs 7.3. Claude Sonnet 4.6 are costul de benchmark mai mic, $0.316 vs $1.210. Claude Sonnet 4.6 este mai rapid cu 5.04s vs 22.35s, cu rate de reușită de 55.6% vs 76.2%.

Model recomandat: Claude Sonnet 4.6 - Oferă cel mai bun compromis per total: scor competitiv (7.3), cost mai mic decât GPT-5.4 și timp de răspuns echilibrat.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-12

Metrică Claude Sonnet 4.6 Claude Sonnet 4.6 none Lansare: 2026-02-17 GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05
Scor 7.3 8.5
Rang #56 #20
Fiabilitate 10.0 10.0
Consistență 9.7 8.6
Teste corecte
Rată de trecere pe încercare 55.6% 76.2%
Teste instabile 1 4
Rulări totale 63 63
Cost per rezultat 2.870 8.640
Cost total $0.316 $1.210
Preț de intrare $3.000 / 1M $2.500 / 1M
Preț de ieșire $15.000 / 1M $15.000 / 1M
Total tokenuri de intrare 57,886 34,108
Tokenuri de ieșire 9,465 2,242
Tokenuri de raționament 0 72,707
Timp de răspuns (mediu) 5.04s 22.35s
Timp de răspuns (maxim) 23.84s 100.41s
Timp de răspuns (total) 70.60s 469.29s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#56 Claude Sonnet 4.6

none
Cost
$0.038
Time
27.3s
Tokens
2,598 tok

#20 GPT-5.4

medium
Cost
$0.214
Time
199.6s
Tokens
14,349 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 4.8 10.0 25.0% 0 2.94s 636 1,214 0
GPT-5.4 8.3 10.0 75.0% 0 4.11s 606 240 1,511
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 5.5 10.0 33.3% 0 5.19s 8,522 2,127 0
GPT-5.4 8.8 7.8 88.9% 1 44.36s 7,305 433 24,216
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 9.5 10.0 100.0% 0 23.84s 26,024 3,766 0
GPT-5.4 10.0 10.0 100.0% 0 20.57s 11,019 301 3,543
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 10.0 10.0 100.0% 0 3.43s 8,574 252 0
GPT-5.4 10.0 10.0 100.0% 0 5.32s 7,140 234 804
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 7.7 10.0 66.7% 0 3.54s 759 413 0
GPT-5.4 5.3 7.2 44.4% 1 74.27s 619 61 34,748
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 6.1 3.1 66.7% 1 2.56s 513 192 0
GPT-5.4 4.7 3.1 33.3% 1 4.92s 477 145 321
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 6.5 10.0 50.0% 0 1.96s 690 90 0
GPT-5.4 10.0 10.0 100.0% 0 3.11s 660 93 897
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 7.7 10.0 66.7% 0 2.53s 663 533 0
GPT-5.4 8.2 7.2 88.9% 1 9.14s 642 441 3,815
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.11s 11,301 447 0
GPT-5.4 10.0 10.0 100.0% 0 13.28s 5,445 264 1,031
Cultură generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Claude Sonnet 4.6 3.0 10.0 0.0% 0 4.67s 204 431 0
GPT-5.4 3.0 10.0 0.0% 0 13.95s 195 30 1,821

Comparație rapidă

Schimbă perechea de comparație