预训练数据处理专家 – Shanda

工作职责：

网页语料管线：建设并主导海量网页数据（如Common Crawl）的清洗管线，包括内容抽取、质量过滤、分类与多粒度去重。
数据解析管线：建设面向超大规模书籍、论文的自动化解析与处理链路，包括OCR识别、版面还原、公式/表格抽取、质量过滤与去重。
代码语料管线：建设面向超大规模代码数据的处理链路，包括质量过滤与去重。
知识/领域数据挖掘：负责构建面向“世界知识”的语料体系，并且通过语料的合成与改写提升数据的知识密度、多样性、事实准确性、以及大模型的各方面垂类的能力数据挖掘。
智能化链路与闭环：与算法团队紧密协作，将模型能力（如质量打分、内容改写、智能过滤）工程化并融入清洗链路；通过下游Benchmark表现闭环验证数据贡献。

任职要求：

211院校全日制本科及以上学历。
主导或深度参与过超大规模的LLM预训练数据清洗，或者主导过大型搜索引擎的网页质量评估平台，或主导过内容社区网站的质量识别平台。
精通数据清洗与处理的常用算法与工具，如内容抽取、去重、质量/毒性过滤模型。
熟悉大规模数据处理框架，具备强大的数据工程与Pipeline构建能力。
熟悉基础算法，例如利用LLM做内容质量的識別、内容抽取与改写。

如您对该职位感兴趣，请将简历与求职信发送至 shandahr@shanda.com。我们也欢迎来自招聘机构的推荐。