基础模型系统研究员
工作职责:
- 系统开发与优化:主导大模型训练与推理系统的开发与优化,运用混合并行、自动并行、高性能算子开发及通信优化等技术,显著提升模型训练速度与效率,加速迭代进程。
- 技术难题攻克:解决机器学习系统在高并发、高可靠性、高可扩展性方面的复杂技术挑战,确保系统在各种场景下稳定运行和高效响应。
- 多领域覆盖:全面负责机器学习系统的关键子方向,涵盖资源调度、模型训练、模型推理及强化学习训练等核心领域,推动系统整体性能提升。
- 性能分析与技术创新:深入分析大模型训练的性能指标,精准定位并解决性能瓶颈,最大化训练效率。同时关注前沿技术,积极开展调研与引入,深度挖掘硬件资源潜力。
任职要求:
- 985院校全日制本科及以上学历,计算机、软件工程或相关专业。
- 编程与框架能力:熟练掌握C、C++、Python或Cuda至少一种。熟悉PyTorch FSDP、DeepSpeed或Megatron-LM等分布式训练框架。
- 技术方案把控:能够从机器性能、系统稳定性等多维度严格把控技术方案,确保方案的科学性、合理性和高效性。
- 对以下一个或多个领域具备实践经验和浓厚兴趣:
- 并行系统:在基础模型的分布式训练、高效微调、强化学习训练及推理引擎优化等方面有深入研究,包括并行策略制定、量化压缩技术、算子优化等。
- 高性能算子:熟悉并行计算(如Triton、Cuda)、通信技术(如NCCL、NVSHMEM)及AI编译器(如MLIR、TVM, Triton, LLVM)等领域。
如您对该职位感兴趣,请将简历与求职信发送至 shandahr@shanda.com。我们也欢迎来自招聘机构的推荐。