docker.io/yuntongzhang/swe-bench

docker.io/yuntongzhang/swe-bench镜像为SWE-bench基准测试提供运行环境,SWE-bench是针对真实世界软件修复任务的基准套件,用于评估大型语言模型及代码生成模型解决实际编程问题的能力。该镜像预配置了运行SWE-bench评估所需的依赖、数据集和工具链,可帮助用户快速开展模型评估,无需手动搭建复杂环境。

下载:3 版本:1