運(yùn)維專家-云平臺運(yùn)維(人工智能/大數(shù)據(jù))-北
3-6萬元/月職位描述
1)負(fù)責(zé)阿里云AI人工智能平臺(PAI)的運(yùn)維保障,構(gòu)建超大規(guī)模GPU集群的穩(wěn)定性體系,涵蓋可觀測性鏈路建設(shè)、監(jiān)控告警機(jī)制、故障應(yīng)急響應(yīng)與處理、SLA可用率評估與優(yōu)化等工作
2)開發(fā)AI運(yùn)維管控系統(tǒng),借助自動化手段提升運(yùn)維效能,實(shí)現(xiàn)交付與變更的CICD流程、GPU節(jié)點(diǎn)的快速交付與自愈能力、智能診斷與問題定界等能力
3)推進(jìn)AIOps智能運(yùn)維實(shí)踐,運(yùn)用AI算法增強(qiáng)系統(tǒng)穩(wěn)定性,覆蓋異常行為識別、根因分析以及基于大模型與智能體Agent的運(yùn)維場景落地
4)主導(dǎo)穩(wěn)定性架構(gòu)設(shè)計(jì)并推動重點(diǎn)項(xiàng)目實(shí)施,包括基礎(chǔ)架構(gòu)向云原生演進(jìn)、跨AZ高可用方案設(shè)計(jì)、產(chǎn)品可運(yùn)維性架構(gòu)持續(xù)升級等
職位要求
1)具備3年以上K8S或主流大數(shù)據(jù)引擎運(yùn)維經(jīng)驗(yàn),掌握分布式系統(tǒng)原理及Linux底層機(jī)制,有AIIaaS&PaaS平臺或GPU集群運(yùn)維開發(fā)背景者優(yōu)先
2)熟練使用Golang/Python/Java中至少一門編程語言,具備運(yùn)維平臺開發(fā)經(jīng)歷,擁有AIOps相關(guān)實(shí)踐經(jīng)驗(yàn)者更佳
3)具有穩(wěn)定性生產(chǎn)環(huán)境落地實(shí)操經(jīng)驗(yàn),熟悉高可用架構(gòu)設(shè)計(jì)、可觀測性與監(jiān)控體系、異常事件處置流程、SLA與可用率管理、節(jié)點(diǎn)自愈機(jī)制等
4)具備良好的溝通協(xié)調(diào)能力與項(xiàng)目推動力,工作認(rèn)真細(xì)致,抗壓能力強(qiáng)