统一内存架构AI桌面小主机GB10【实测】
1.AI小主机硬件情况测试的AI小主机为国产厂商单台设备同DGX Spark统一内存128GBCPU:GPU:2.vllm版本vllm容器镜像版本为0.20旧版本对nvfp4的支持不好显存使用率0.85上下文256K3.模型生成速率情况拉取modescope模型模型生成速率tokens/s--t/s截图依次如下qwen3.5:27b 4t/sqwen3.5:27b-int4 8t/sqwen3.5-122b-a10b-int4 14.5t/sqwen3.5-35b-a3b-int4 32t/sqwen3.5-122b-a10b-nvfp4 31t/sqwen3.6-35b-A3b-fp8 51t/sqwen3.5:27bqwen3.5:27b-int4qwen3.5-122b-a10b-int4qwen3.5-35b-a3b-int4qwen3.5-122b-a10b-nvfp4qwen3.6-35b-A3b-fp84.模型并发情况主要测试了生成速率30tokens/s以上的用户体验较好vllm各项性能显著优于ollama但ollama更易用。并发测试采用了下述链接方案参数默认容器化部署https://github.com/lework/llm-benchmarkqwen3.5-35b-a3b-int4qwen3.5-122b-a10b-int4qwen3.6-35b-A3b-fp8以上对迷你AI桌面工作站的简要测试如有不妥请批评指正