这是基于华为昇腾(Ascend)平台优化的vllm推理框架容器镜像,适用于在昇腾NPU上开展大语言模型的高效推理任务,可支持高吞吐量、低延迟的模型服务部署场景。
docker.io/quay.io/ascend/vllm-ascend:v0.17.0rc1