大数据开发工程师（大模型预训练数据方向） – Shanda

工作职责：

面向网页、书籍、代码等非结构化数据，构建高效的数据处理流程，支持模型训练。
利用云上大数据计算服务（如Spark/Ray等），对大规模离线任务做性能与成本优化。

任职要求：

211院校全日制本科及以上学历。
大数据平台/数据仓库/数据治理相关经验，有云上数仓或数据平台架构经验。
熟悉至少一家主流云的数据类PaaS（对象存储、数据湖/仓、Spark/Flink/Ray等），有大规模离线任务调优实战（万核级更佳）。
深入理解数据治理体系，在数据分层、元数据管理、数据血缘和数据版本控制方面有丰富的落地经验。
有非结构化数据（文本、网页、代码等）的大规模存储与治理经验，有预训练语料管理经验优先。

如您对该职位感兴趣，请将简历与求职信发送至 shandahr@shanda.com。我们也欢迎来自招聘机构的推荐。