docker.io/intel/vllm镜像是Intel优化的vLLM(高效大语言模型推理与服务框架)容器镜像,针对Intel CPU、GPU等硬件进行性能优化,集成Intel oneDNN等优化技术,可实现大语言模型的低延迟、高吞吐量推理服务,支持主流大语言模型部署,适用于需要高效运行大语言模型推理的场景。
docker.io/intel/vllm:0.10.2-xpu