RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试
1070浏览 • 2025-8-15 •
搞机专区
• MA108317
跑的FP16的精度,262K完整上下文,78tps,和单卡32K上下文时候一样,都是 78tps。可能这就是4090跑Q3 30B的极限了。
测试环境
项目配置
GPU:8 × NVIDIA GeForce RTX 4090(24GB 显存)
CPU:Intel Xeon 128核
内存:512GB
CUDA 版本:12.6
驱动版本:560.35.03
操作系统:Ubuntu 22.04 LTS
推理框架:vLLM 0.10.0
模型:Qwen/Qwen3-30B-A3B-Instruct-2507(fp16)
模型来源:ModelScope
关键参数说明:
tensor-parallel-size 8:8 卡并行,充分利用计算资源
dtype half:使用 FP16 精度,平衡速度与显存
gpu-memory-utilization 0.8:预留 20% 显存防 OOM
支持 262K 上下文,满足长文本需求
测试方法
使用自研压测脚本 vllm_bench.py,支持命令行指定并发数:
python3 vllm_bench.py -c 100
测试指标:
单请求 TPS(tokens/sec):衡量响应速度
总吞吐 TPS:衡量系统整体处理能力
平均延迟:用户感知的响应时间
显存占用:监控资源使用情况
测试并发数覆盖:1、2、3、4、5、10、20、50、100、1000。
未经作者允许,禁止转载
#4090
#大模型
#qwen3
#AI
24