阿里云智能-深度學習訓練系統研發(fā)專家
2.8-5.5萬元/月
投遞簡歷
北京-朝陽區(qū)
3-5年
深度學習 · 大模型算法 · 自然語言處理算法 · 多模態(tài)算法 · C/C++ · Python · 分布式訓練 · 算法工程化經驗 · 發(fā)表算法相關優(yōu)秀論文 · 參加算法相關競賽/獲獎
2025-12-16 14:30:23 更新
被瀏覽:604 次
阿里云計算有限公司
最近在線時間:2025-12-16 14:30:23
電話:176********
地址:浙江省杭州市西湖區(qū)三墩鎮(zhèn)燈彩街1008號云谷園區(qū)1-2-A06室
職位描述
崗位職責:
●負責PAI平臺深度學習框架的技術研發(fā),涵蓋MoE模型的大規(guī)模訓練框架、多模態(tài)訓練體系、RLHF訓練架構等方向,支撐通義實驗室及阿里集團內多個業(yè)務場景;參與基模型Pretrain、SFT等關鍵階段的訓練流程優(yōu)化;
●專注于提升各階段模型訓練任務的極限吞吐能力,系統化分析不同負載下的性能瓶頸,提出針對性優(yōu)化方案,包括算子層面改進、通信機制調優(yōu)、分布式策略增強等技術路徑;
●主導超大規(guī)模訓練任務的穩(wěn)定性架構設計,通過多種技術手段提高訓練有效吞吐,建設高效的故障發(fā)現與自恢復機制,保障大規(guī)模訓練過程的流暢性與可靠性;
●參與訓練框架對多元硬件平臺的適配與性能調優(yōu)工作。
任職要求:
●具備扎實的工程實現能力,良好的代碼規(guī)范,精通Python/C++編程語言,掌握常見設計模式,擁有復雜系統的架構設計、開發(fā)與調試經驗;
●理解深度學習基本理論,熟悉Transformer結構,了解主流大語言模型與多模態(tài)模型的技術特性;
●熟練使用PyTorch等相關深度學習框架,深入掌握Megatron、DeepSpeed、JAX等訓練框架的核心機制與差異點;
●具備良好的溝通表達能力和團隊協作素養(yǎng),有快速學習新技術的能力,以及持續(xù)深入探索技術難題的韌性;
●掌握計算機體系結構基礎,具備異構計算優(yōu)化(GPGPU/x86/ARM)實戰(zhàn)經驗,熟悉高性能網絡通信優(yōu)化與分布式訓練策略調優(yōu)技術;
求職提醒:求職過程請勿繳納費用,謹防詐騙!若信息不實請舉報。
該公司的其他職位
您可能感興趣的職位
搜索更多相似職位 >
推薦企業(yè)
職位專題
微信求職找工作
手機掃一掃
隨時隨地找工作