花糕

RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试

1070浏览 2025-8-15 搞机专区 MA108317

跑的FP16的精度,262K完整上下文,78tps,和单卡32K上下文时候一样,都是 78tps。可能这就是4090跑Q3 30B的极限了。

测试环境

项目配置

GPU:8 × NVIDIA GeForce RTX 4090(24GB 显存)

CPU:Intel Xeon 128核

内存:512GB

CUDA 版本:12.6

驱动版本:560.35.03

操作系统:Ubuntu 22.04 LTS

推理框架:vLLM 0.10.0

模型:Qwen/Qwen3-30B-A3B-Instruct-2507(fp16)

模型来源:ModelScope

关键参数说明:

tensor-parallel-size 8:8 卡并行,充分利用计算资源

dtype half:使用 FP16 精度,平衡速度与显存

gpu-memory-utilization 0.8:预留 20% 显存防 OOM

支持 262K 上下文,满足长文本需求

测试方法

使用自研压测脚本 vllm_bench.py,支持命令行指定并发数:

python3 vllm_bench.py -c 100

测试指标:

单请求 TPS(tokens/sec):衡量响应速度

总吞吐 TPS:衡量系统整体处理能力

平均延迟:用户感知的响应时间

显存占用:监控资源使用情况

测试并发数覆盖:1、2、3、4、5、10、20、50、100、1000。

未经作者允许,禁止转载
#4090 #大模型 #qwen3 #AI
24