hero

Portfolio jobs

Open roles at our portfolio companies

算法工程师

Ant Group

Ant Group

Beijing, China
Posted on Mar 1, 2026

职位描述:

1. 参与大语言模型(LLM)后训练全流程优化,包括但不限于通用能力提升、安全对齐等方向。

2. 实现并应用SFT/RLHF/DPO/PPO/GRPO等算法,探索多目标奖励模型、过程监督等前沿技术,提升模型在指令遵循、逻辑推理、多任务泛化等方面的性能。

3. 构建模型效果评估体系,设计自动化评估方案,持续跟踪模型优化效果。

4. 参与技术开源与学术研究,发表顶会论文或贡献核心开源项目。

职位要求:

● 计算机科学、人工智能、数学等相关专业硕士及以上学历(优秀本科生可放宽)。

● 熟练掌握 Python 和 PyTorch,具备分布式训练(如多机多卡调优)经验。

● 深入理解 Transformer 架构及SFT/RLHF/DPO/PPO/GRPO等算法。

● 在NeurIPS、ICML、ICLR、 ACL等顶会发表论文,或 Kaggle、ACM 竞赛获奖者优先。

加分项:

● 具备大规模(千卡级)训练调优经验。

● 大规模MoE架构训练/调优经验。

● 长思维链/复杂任务推理经验。

● 在开源社区(如 HuggingFace、GitHub)有突出贡献。