Navigare
AI BENCHY
Compară Grafice Metodologie
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică Anthropic: Claude Opus 4.6 medium Lansare: 2026-02-05 OpenAI: GPT-5.3 Chat none Lansare: 2026-03-03
Scor mediu 6.4 7.5
Rang #31 #20
Teste corecte
Consistență 8.9 8.4
Cost per rezultat 14.411 3.110
Cost total $1.297 $0.311
Rată de trecere pe încercare 64.4% 75.6%
Teste instabile 2 3
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Tokenuri de ieșire 26,066 18,953
Tokenuri de raționament 17,071 0
Timp de răspuns (mediu) 25.08s 6.22s
Timp de răspuns (maxim) 83.40s 18.33s
Timp de răspuns (total) 200.67s 93.31s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 4.0 4.4 55.6% 2 11.88s 897 1,000
OpenAI: GPT-5.3 Chat 7.3 7.5 77.8% 1 4.72s 3,091 0
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 11.96s 2,614 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 9.9 10.0 100.0% 0 7.37s 691 757
OpenAI: GPT-5.3 Chat 9.9 10.0 100.0% 0 2.21s 942 0
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 10.0 10.0 0.0% 0 83.40s 14,642 8,687
OpenAI: GPT-5.3 Chat 10.0 4.4 33.3% 2 13.01s 8,264 0
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
OpenAI: GPT-5.3 Chat 9.0 10.0 50.0% 0 3.29s 1,455 0
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 7.0 10.0 66.7% 0 4.60s 531 637
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 2.93s 1,726 0
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Anthropic: Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
OpenAI: GPT-5.3 Chat 10.0 10.0 100.0% 0 8.36s 861 0

Comparație rapidă

Schimbă perechea de comparație