深度學(xué)習(xí)訓(xùn)練系統(tǒng)開發(fā)專家-北京,杭州
3.5-6.5萬元/月職位描述
●負(fù)責(zé)PAI平臺深度學(xué)習(xí)框架的技術(shù)研發(fā),涵蓋MoE模型的大規(guī)模訓(xùn)練框架、多模態(tài)訓(xùn)練架構(gòu)、RLHF訓(xùn)練系統(tǒng)等方向,支撐通義實驗室及阿里集團內(nèi)多個業(yè)務(wù)場景的模型訓(xùn)練需求;參與基模型Pretrain、SFT等關(guān)鍵階段的訓(xùn)練流程優(yōu)化;
●專注于提升各階段模型訓(xùn)練任務(wù)的極致吞吐能力,能夠?qū)Σ煌P拓?fù)載進(jìn)行系統(tǒng)性性能剖析,定位耗時瓶頸,并實施針對性優(yōu)化措施,包括但不限于算子層面調(diào)優(yōu)、通信機制改進(jìn)、分布式策略增強等技術(shù)手段;
●主導(dǎo)超大規(guī)模訓(xùn)練系統(tǒng)的穩(wěn)定性建設(shè),通過多種技術(shù)方案提升訓(xùn)練任務(wù)的實際有效吞吐,打造高效的故障發(fā)現(xiàn)機制與自動恢復(fù)體系,保障大規(guī)模訓(xùn)練過程的流暢性和可靠性;
●參與訓(xùn)練框架在多種硬件平臺上的適配與性能優(yōu)化工作。
職位要求
●具備扎實的工程實現(xiàn)能力,良好的編碼規(guī)范,熟練掌握Python/C++編程語言,了解常用設(shè)計模式,具有復(fù)雜軟件系統(tǒng)的架構(gòu)設(shè)計、開發(fā)與調(diào)試經(jīng)驗;
●理解深度學(xué)習(xí)基本理論,熟悉Transformer結(jié)構(gòu),了解主流大語言模型和多模態(tài)模型的技術(shù)特性;
●熟練使用PyTorch等主流深度學(xué)習(xí)框架,深入理解Megatron、DeepSpeed、JAX等訓(xùn)練框架的設(shè)計理念與核心機制;
●具備良好的溝通表達(dá)能力和團隊協(xié)作精神,擁有快速學(xué)習(xí)新技術(shù)的能力,以及持續(xù)探索和解決復(fù)雜技術(shù)問題的韌性;
●掌握計算機體系結(jié)構(gòu)相關(guān)基礎(chǔ)知識,在異構(gòu)計算優(yōu)化(GPGPU/x86/ARM)領(lǐng)域有實踐經(jīng)驗,熟悉高性能網(wǎng)絡(luò)通信優(yōu)化方法,具備分布式訓(xùn)練策略調(diào)優(yōu)的實際經(jīng)歷;