工作职责:

  • 面向网页、书籍、代码等非结构化数据,构建高效的数据处理流程,支持模型训练。
  • 利用云上大数据计算服务(如Spark/Ray等),对大规模离线任务做性能与成本优化。

任职要求:

  • 211院校全日制本科及以上学历。
  • 大数据平台/数据仓库/数据治理相关经验,有云上数仓或数据平台架构经验。
  • 熟悉至少一家主流云的数据类PaaS(对象存储、数据湖/仓、Spark/Flink/Ray等),有大规模离线任务调优实战(万核级更佳)。
  • 深入理解数据治理体系,在数据分层、元数据管理、数据血缘和数据版本控制方面有丰富的落地经验。
  • 有非结构化数据(文本、网页、代码等)的大规模存储与治理经验,有预训练语料管理经验优先。
如您对该职位感兴趣,请将简历与求职信发送至 shandahr@shanda.com。我们也欢迎来自招聘机构的推荐。