工作职责:

  • 网页语料管线:建设并主导海量网页数据(如Common Crawl)的清洗管线,包括内容抽取、质量过滤、分类与多粒度去重。
  • 数据解析管线:建设面向超大规模书籍、论文的自动化解析与处理链路,包括OCR识别、版面还原、公式/表格抽取、质量过滤与去重。
  • 代码语料管线:建设面向超大规模代码数据的处理链路,包括质量过滤与去重。
  • 知识/领域数据挖掘:负责构建面向“世界知识”的语料体系,并且通过语料的合成与改写提升数据的知识密度、多样性、事实准确性、以及大模型的各方面垂类的能力数据挖掘。
  • 智能化链路与闭环:与算法团队紧密协作,将模型能力(如质量打分、内容改写、智能过滤)工程化并融入清洗链路;通过下游Benchmark表现闭环验证数据贡献。

任职要求:

  • 211院校全日制本科及以上学历。
  • 主导或深度参与过超大规模的LLM预训练数据清洗,或者主导过大型搜索引擎的网页质量评估平台,或主导过内容社区网站的质量识别平台。
  • 精通数据清洗与处理的常用算法与工具,如内容抽取、去重、质量/毒性过滤模型。
  • 熟悉大规模数据处理框架,具备强大的数据工程与Pipeline构建能力。
  • 熟悉基础算法,例如利用LLM做内容质量的識別、内容抽取与改写。
如您对该职位感兴趣,请将简历与求职信发送至 shandahr@shanda.com。我们也欢迎来自招聘机构的推荐。