AI智算集群運維管控平臺研發(fā)-北/
3-6萬元/月職位描述
1.打造靈駿監(jiān)管控系統(tǒng)的核心功能,持續(xù)提升客戶在云環(huán)境使用靈駿智算集群產(chǎn)品的自動化與智能化水平。
2.構(gòu)建涵蓋智算集群庫存管理、節(jié)點調(diào)度、性能分析、故障自動處理及租戶運維等關(guān)鍵能力體系,不斷增強靈駿智算集群的產(chǎn)品優(yōu)勢。
3.完善系統(tǒng)高可用架構(gòu),包括管控組件故障自定位、自恢復(fù)、自適應(yīng)容災(zāi)機制,推進云原生技術(shù)的實踐與落地,確保業(yè)務(wù)連續(xù)性與線上系統(tǒng)穩(wěn)定運行。
4.搭建異構(gòu)算力統(tǒng)一管控與資源調(diào)度平臺,持續(xù)優(yōu)化智算集群資源使用效率,降低整體計算開銷。
5.密切關(guān)注AI智算、云原生及智能運維領(lǐng)域的前沿技術(shù),結(jié)合實際業(yè)務(wù)場景推動技術(shù)創(chuàng)新與應(yīng)用。
6.本崗位需承擔值班任務(wù),在服務(wù)級別協(xié)議(SLA)規(guī)定時限內(nèi)及時響應(yīng)客戶需求,推動問題閉環(huán),提升客戶滿意度。
職位要求
1.具備5年以上大規(guī)模分布式系統(tǒng)設(shè)計與開發(fā)經(jīng)驗,曾獨立主導(dǎo)多模塊業(yè)務(wù)子系統(tǒng)建設(shè),涵蓋接口定義、架構(gòu)設(shè)計及核心分布式技術(shù)方案制定等工作。
2.編程基礎(chǔ)扎實,熟練掌握數(shù)據(jù)結(jié)構(gòu)與算法,精通Golang/Java/Python/C++中至少一門編程語言。
3.具備出色的系統(tǒng)工程能力,重視線上穩(wěn)定性,對復(fù)雜系統(tǒng)有較強的技術(shù)洞察力和故障排查經(jīng)驗;具備線上監(jiān)控體系、變更流程或體系設(shè)計與實施經(jīng)驗者優(yōu)先。
4.業(yè)務(wù)理解能力強,具備優(yōu)秀的抽象建模能力,邏輯清晰,善于思考,能獨立拆解并解決復(fù)雜問題,有主導(dǎo)完整技術(shù)產(chǎn)品項目經(jīng)歷者優(yōu)先。
5.具備復(fù)雜項目統(tǒng)籌管理能力,有項目負責人或研發(fā)團隊對接人經(jīng)驗者優(yōu)先。
6.具備良好團隊協(xié)作意識,有實線或虛線帶領(lǐng)團隊完成技術(shù)項目的經(jīng)驗者優(yōu)先。
7.熟悉AI框架、云原生架構(gòu)、微服務(wù)設(shè)計理念與常用設(shè)計模式者優(yōu)先。