数据团队负责人
工作职责:
- 数据基建与治理:基于云PaaS,主导设计AGI数据仓库(非结构化)的全局架构,建立清晰的数据分层、血缘、元数据与版本管理标准。
- 大数据工程与调优:架构PB级ETL流程,主导万核级分布式计算任务的深度性能调优。
- 超大规模采集:主导百亿页面级网页抓取体系的工程建设、策略优化、数据管理。
- 超大规模语料的处理:建设面向海量(网页/书籍/代码)数据的自动化清洗、解析与去重管线。
- 团队与闭环:组建并管理数据工程与治理团队;与算法团队协作,通过下游Benchmark闭环验证数据质量。
任职要求:
- 985院校全日制本科及以上学历。
- 主导过大语言模型预训练数据的处理与治理;精通PB级数据处理。
- 熟悉(非结构化)数据仓库/数据湖的治理体系(数据分层、血缘、元数据)。
- 出色的技术团队管理经验,和清晰的跨部门(算法、法务)协作能力。
如您对该职位感兴趣,请将简历与求职信发送至 shandahr@shanda.com。我们也欢迎来自招聘机构的推荐。