阿里云智能-高級(jí)技術(shù)專家(專有云智算方向)
9-12萬元/月base地可選:北京/杭州/上海/深圳/成都
主要是做GPU集群管理和集群性能優(yōu)化的,核心架構(gòu)師,高階職位~
阿里云專有云是面向政企行業(yè)客戶的全棧云平臺(tái),為企業(yè)級(jí)客戶(政府、金融、部委、央企等行業(yè))提供產(chǎn)品和服務(wù)。該崗位主要負(fù)責(zé)專有云智算平臺(tái)架構(gòu)規(guī)劃、系統(tǒng)設(shè)計(jì)及核心技術(shù)研發(fā)。核心職責(zé)包括:
1、主導(dǎo)智算平臺(tái)的全棧架構(gòu)設(shè)計(jì)。針對(duì)不同芯片平臺(tái)/不同規(guī)模集群進(jìn)行整體方案規(guī)劃,滿足千卡/萬卡集群高并發(fā)、低延遲、彈性可擴(kuò)展等需求。
2、開展性能與穩(wěn)定性調(diào)優(yōu),提高集群運(yùn)行效能,持續(xù)增強(qiáng)技術(shù)領(lǐng)先優(yōu)勢。
3、追蹤前沿技術(shù)動(dòng)態(tài),推進(jìn)新技術(shù)在實(shí)際場景中的落地實(shí)施。參與相關(guān)行業(yè)標(biāo)準(zhǔn)建設(shè)工作。
職位要求:
1、具備5年以上云計(jì)算、AI基礎(chǔ)設(shè)施領(lǐng)域架構(gòu)設(shè)計(jì)與研發(fā)經(jīng)驗(yàn)(如大規(guī)模集群運(yùn)維、高性能網(wǎng)絡(luò)、高性能存儲(chǔ)等方向);
2、掌握并熟練使用C/JAVA/Python/Go中的一種或多種編程語言;
3、理解GPU、網(wǎng)絡(luò)、存儲(chǔ)、K8s、大模型技術(shù)原理,具備大模型訓(xùn)練與推理的基礎(chǔ)知識(shí);
4、具有復(fù)雜系統(tǒng)架構(gòu)設(shè)計(jì)與項(xiàng)目落地經(jīng)驗(yàn)者優(yōu)先,具備千卡/萬卡級(jí)智算平臺(tái)架構(gòu)研發(fā)背景者優(yōu)先;
5、具備良好溝通協(xié)調(diào)能力與邏輯思維能力,善于分析和解決復(fù)雜問題,對(duì)攻克高難度技術(shù)挑戰(zhàn)富有熱情;
6、熟悉業(yè)界主流實(shí)踐與發(fā)展動(dòng)向,具備一定技術(shù)前瞻性。
備注:持有阿里云ACA/ACP/ACE認(rèn)證者優(yōu)先