RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试
1642浏览 • 2025-8-15 •
搞机专区
• MA108317
跑的FP16的精度,262K完整上下文,78tps,和单卡32K上下文时候一样,都是 78tps。可能这就是4090跑Q3 30B的极限了。
测试环境
项目配置
GPU:8 × NVIDIA GeForce RTX 4090(24GB 显存)
CPU:Intel Xeon 128核
内存:512GB
CUDA 版本:12.6
驱动版本:560.35.03
操作系统:Ubuntu 22.04 LTS
推理框架:vLLM 0.10.0
模型:Qwen/Qwen3-30B-A3B-Instruct-2507(fp16)
模型来源:ModelScope
关键参数说明:
tensor-parallel-size 8:8 卡并行,充分利用计算资源
dtype half:使用 FP16 精度,平衡速度与显存
gpu-memory-utilization 0.8:预留 20% 显存防 OOM
支持 262K 上下文,满足长文本需求
测试方法
使用自研压测脚本 vllm_bench.py,支持命令行指定并发数:
python3 vllm_bench.py -c 100
测试指标:
单请求 TPS(tokens/sec):衡量响应速度
总吞吐 TPS:衡量系统整体处理能力
平均延迟:用户感知的响应时间
显存占用:监控资源使用情况
测试并发数覆盖:1、2、3、4、5、10、20、50、100、1000。



未经作者允许,禁止转载
#4090
#大模型
#qwen3
#AI
26
2
15
所属合集
P1. 困死了
P2. 原创诗,虎门销烟
P3. 新东西(躲)
P4. (2025-12-15更新新方法)一句话让 Gemini Antigravity 吐中文,以及如何设置全局提示词
P5. 被Rust包围了,好幸福!
P6. AI改BUG现状
P7. DBeaver恢复mysql数据库遇到@@GLOBAL.GTID_PURGED错误
P8. 如何使用 docker 在 Ubuntu 22.04 上安装带IK分词器的 Elastic Search 7.10.2
P9. 原创诗,想不到题目了,无所谓了
P10. 原创诗,游龙门石窟和栾川老君山
P11. Kubernetes中通过HTTP代理克隆GitHub SSH仓库的解决方案
P12. pip设置为清华源
P13. RTX 4090 * 8 运行 Qwen3-30B-A3B-Instruct-2507 性能测试 (当前)
P14. 原创诗《八公山》
P15. 无题
P16. 【开源】网页内容提取器
P17. 403或图片视频无法加载的问题
P18. .ssh/config文件添加password?来用密钥对吧
P19. 试了下炼丹,骇人
P20. linux更新docker compose版本
P21. 分布式日志管理:从单体最佳实践到云原生范式演进
