AI BENCHY Compare

Verglichene Modelle

Zusammenfassung

Benchmark-Vergleich Qwen3.7 Max vs Qwen3.7 Plus vs Claude Opus 4.7Qwen3.7 Max führt bei Punktzahl mit 9.4. Qwen3.7 Max führt bei Zuverlässigkeit mit 10.0. Qwen3.7 Plus hat den niedrigsten Gesamtkosten mit $0.177. Claude Opus 4.7 ist mit 4.73s am schnellsten.

Empfohlenes Modell: Claude Opus 4.7 - Die Punktzahl bleibt nah an der besten hier (8.7 vs 9.4) und es antwortet etwa 5.8x schneller als die anderen Modelle in diesem Vergleich.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-12

Metrik	Qwen3.7 Max Qwen3.7 Max medium Veröffentlichung: 2026-05-22	Qwen3.7 Plus Qwen3.7 Plus medium Veröffentlichung: 2026-06-03	Claude Opus 4.7 Claude Opus 4.7 medium Veröffentlichung: 2026-04-16

Metrik	Qwen3.7 Max Qwen3.7 Max medium Veröffentlichung: 2026-05-22	Qwen3.7 Plus Qwen3.7 Plus medium Veröffentlichung: 2026-06-03	Claude Opus 4.7 Claude Opus 4.7 medium Veröffentlichung: 2026-04-16
Punktzahl	9.4	8.2	8.7
Rang	#4	#28	#17
Zuverlässigkeit	10.0	10.0	10.0
Konsistenz	9.6	9.1	9.6
Korrekte Tests
Erfolgsquote pro Versuch	88.9%	77.8%	82.5%
Instabile Tests	1	2	1
Gesamtläufe	63	63	63
Kosten pro Ergebnis	5.517	1.474	3.991
Gesamtkosten	$0.523	$0.177	$0.679
Eingabepreis	$1.250 / 1M	$0.320 / 1M	$5.000 / 1M
Ausgabepreis	$3.750 / 1M	$1.280 / 1M	$25.000 / 1M
Gesamte Eingabe-Token	42,360	40,939	65,406
Ausgabe-Token	2,129	2,125	11,858
Denk-Token	122,959	125,754	2,198
Antwortzeit (Durchschnitt)	16.02s	38.95s	4.73s
Antwortzeit (Maximum)	59.98s	178.04s	23.18s
Antwortzeit (Gesamt)	336.51s	817.85s	94.51s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#4 Qwen3.7 Max

medium

Cost: $0.017
Time: 68.8s
Tokens: 4,526 tok

#28 Qwen3.7 Plus

medium

Cost: $0.018
Time: 193.2s
Tokens: 10,821 tok

#17 Claude Opus 4.7

medium

Cost: $0.059
Time: 26.8s
Tokens: 2,475 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	6.36s	672	222	8,742
Qwen3.7 Plus	10.0	10.0	100.0%	8.58s	672	195	5,065
Claude Opus 4.7	8.3	10.0	75.0%	1.85s	894	348	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	0	35.31s	7,893	423	34,808
Qwen3.7 Plus	6.1	6.6	55.6%	1	108.60s	6,472	414	43,576
Claude Opus 4.7	7.6	7.2	77.8%	1	12.96s	10,635	7,629	1,114

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	19.60s	14,934	366	8,405
Qwen3.7 Plus	10.0	10.0	100.0%	65.24s	14,934	366	10,132
Claude Opus 4.7	10.0	10.0	100.0%	21.45s	24,501	2,369	1,084

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	8.80s	7,782	270	6,254
Qwen3.7 Plus	10.0	10.0	100.0%	21.75s	7,782	270	6,713
Claude Opus 4.7	10.0	10.0	100.0%	2.37s	10,533	324	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	5.9	7.2	55.6%	1	24.94s	771	61	31,793
Qwen3.7 Plus	3.6	7.2	22.2%	1	45.35s	771	57	27,073
Claude Opus 4.7	7.7	10.0	66.7%	0	1.17s	630	51	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	11.70s	516	135	4,457
Qwen3.7 Plus	10.0	10.0	100.0%	25.48s	516	123	3,998
Claude Opus 4.7	10.0	10.0	100.0%	2.87s	723	256	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	7.46s	699	102	5,452
Qwen3.7 Plus	10.0	10.0	100.0%	16.13s	699	102	5,013
Claude Opus 4.7	10.0	10.0	100.0%	1.57s	939	114	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	8.84s	696	259	8,908
Qwen3.7 Plus	10.0	10.0	100.0%	16.38s	696	280	7,312
Claude Opus 4.7	10.0	10.0	100.0%	2.43s	939	370	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	10.0	10.0	100.0%	6.63s	8,193	267	1,220
Qwen3.7 Plus	10.0	10.0	100.0%	15.02s	8,193	292	1,831
Claude Opus 4.7	10.0	10.0	100.0%	4.17s	15,339	373	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Qwen3.7 Max	3.0	10.0	0.0%	33.37s	204	24	12,920
Qwen3.7 Plus	3.0	10.0	0.0%	91.07s	204	26	15,041
Claude Opus 4.7	3.0	10.0	0.0%	2.25s	273	24	0

Schnellvergleich

Vergleichspaar wechseln

GPT-5.5lowvsQwen3.7 Maxmedium DeepSeek V4 FlashhighvsQwen3.7 Plusmedium Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Claude Opus 4.7mediumvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.7 Plusmedium Claude Opus 4.7mediumvsDeepSeek V4 Flashhigh Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Qwen3.7 PlusmediumvsStep 3.7 Flashlow Claude Opus 4.7mediumvsGemini 3.5 Flashlow Claude Opus 4.7mediumvsGPT-5.5low GPT-5.3 ChatnonevsQwen3.7 Plusmedium Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium