AI BENCHY तुलना

Mistral: Mistral Small 4 vs Qwen: Qwen3.5-9B

सारांश

Mistral Small 4 vs Qwen3.5-9B benchmark तुलना: Mistral Small 4 average score में आगे है: 5.3 vs 4.2. Qwen3.5-9B की benchmark लागत कम है: $0.036 vs $0.068. Mistral Small 4 तेज है: 9.40s vs 82.24s, pass rates 44.4% vs 27.0%.

अनुशंसित मॉडल: Mistral Small 4 - It has the best score here (5.3), while responding about 8.7x faster than Qwen3.5-9B.

बेंचमार्क AI BENCHY टेस्ट सूट्स से इस समय जनरेट किए गए:: 2026-06-10

मेट्रिक	Mistral Small 4 Mistral Small 4 medium रिलीज़: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium रिलीज़: 2026-03-02

मेट्रिक	Mistral Small 4 Mistral Small 4 medium रिलीज़: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium रिलीज़: 2026-03-02
स्कोर	5.3	4.2
रैंक	#133	#162
विश्वसनीयता	10.0	6.7
संगति	6.9	8.0
सही परीक्षण
प्रति प्रयास पास दर	44.4%	27.0%
अस्थिर टेस्ट	8	5
कुल रन	63	63
प्रति परिणाम लागत	1.344	1.187
कुल लागत	$0.068	$0.036
इनपुट कीमत	$0.150 / 1M	$0.100 / 1M
आउटपुट कीमत	$0.600 / 1M	$0.150 / 1M
कुल इनपुट टोकन	42,576	17,070
आउटपुट टोकन	24,184	29,045
रीजनिंग टोकन	84,678	209,516
प्रतिक्रिया समय (औसत)	9.40s	82.24s
प्रतिक्रिया समय (अधिकतम)	59.15s	226.38s
प्रतिक्रिया समय (कुल)	197.39s	1315.88s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#133 Mistral Small 4

medium

Cost: $0.006
Time: 47.9s
Tokens: 9,857 tok

#162 Qwen3.5-9B

medium

Cost: $0.001
Time: 35.9s
Tokens: 3,030 tok

स्कोर के अनुसार शीर्ष मॉडल

स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत)

स्कोर vs प्रतिक्रिया समय (औसत)

कुल आउटपुट टोकन

स्कोर vs कुल आउटपुट टोकन

श्रेणी विवरण

एंटी-एआई ट्रिक्स	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	5.6	3.8	66.7%	3		2.67s	708	4,055	4,778
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

कोडिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	4.4	5.1	33.3%	2		39.98s	7,636	11,635	54,715
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

संयुक्त	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	3.0	10.0	0.0%	0		25.25s	18,706	2,612	10,700
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

डेटा पार्सिंग और निष्कर्षण	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	7.3	5.9	83.3%	1		1.23s	6,171	335	723
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

डोमेन-विशिष्ट	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	5.3	7.2	44.4%	1		6.11s	742	2,621	6,904
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

Samanya Buddhimatta	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	4.8	10.0	0.0%	0		2.05s	519	821	828
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

निर्देश पालन	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	7.3	5.8	83.3%	1		1.38s	729	540	1,031
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

पहेली समाधान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	3.4	9.7	0.0%	0		2.17s	735	1,226	2,632
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

टूल कॉलिंग	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	10.0	10.0	100.0%	0		3.50s	6,420	321	810
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

सामान्य ज्ञान	स्कोर	संगति	प्रति प्रयास पास दर	अस्थिर टेस्ट	सही परीक्षण	प्रतिक्रिया समय (औसत)	इनपुट टोकन	आउटपुट टोकन	रीजनिंग टोकन
Mistral Small 4	3.0	10.0	0.0%	0		5.92s	210	18	1,557
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

त्वरित तुलना

तुलना जोड़ी बदलें