云平臺(tái)SRE-杭州
4-6萬(wàn)元/月職位描述
云平臺(tái)SRE(SiteReliabilityEngineering)團(tuán)隊(duì)的任務(wù)是確保阿里云生產(chǎn)環(huán)境的穩(wěn)定性、企業(yè)級(jí)云數(shù)據(jù)的可靠性和業(yè)務(wù)連續(xù)性。挑戰(zhàn)在于保證基于云的客戶不間斷的業(yè)務(wù)運(yùn)營(yíng),并實(shí)現(xiàn)超過99.99%的可用性。
云平臺(tái)SRE團(tuán)隊(duì)的目標(biāo)是建立一個(gè)技術(shù)與管理相結(jié)合的系統(tǒng)穩(wěn)定性保障框架,包括但不限于:
1.制定穩(wěn)定性標(biāo)準(zhǔn)與度量體系
*覆蓋系統(tǒng)架構(gòu)穩(wěn)健性、研發(fā)質(zhì)量、版本發(fā)布管理、生產(chǎn)環(huán)境運(yùn)維等多個(gè)方面。
*將穩(wěn)定性理念深度融入阿里云技術(shù)研發(fā)體系。
2.推動(dòng)重大穩(wěn)定性治理項(xiàng)目
*包括全棧容災(zāi)、分階段變更上線、1-5-10應(yīng)急響應(yīng)機(jī)制(1分鐘告警、5分鐘定位、10分鐘恢復(fù))、防資損等專項(xiàng)工作。
*快速且持續(xù)地消除潛在穩(wěn)定性風(fēng)險(xiǎn)。
3.構(gòu)建以穩(wěn)定性為核心的工程技術(shù)平臺(tái)
*提供無(wú)人值守變更管理、紅藍(lán)攻防演練、應(yīng)急協(xié)同、風(fēng)險(xiǎn)與漏洞巡檢、監(jiān)控告警等平臺(tái)能力。
*通過自動(dòng)化和工具化手段簡(jiǎn)化穩(wěn)定性工程實(shí)踐。
4.執(zhí)行生產(chǎn)事件管理
*包括應(yīng)急響應(yīng)、跨團(tuán)隊(duì)協(xié)作、根本原因分析、快速恢復(fù)業(yè)務(wù)、事后復(fù)盤推動(dòng)系統(tǒng)性改進(jìn)。
5.保障大型客戶活動(dòng)的系統(tǒng)穩(wěn)定運(yùn)行
*為奧運(yùn)會(huì)等重大項(xiàng)目及客戶業(yè)務(wù)高峰期提供技術(shù)和運(yùn)維支持。
6.應(yīng)急響應(yīng)
*在服務(wù)等級(jí)協(xié)議(SLA)規(guī)定時(shí)限內(nèi)響應(yīng)客戶問題,主動(dòng)解決問題,提升客戶體驗(yàn)。
職位要求
?5年以上IT、互聯(lián)網(wǎng)、云計(jì)算行業(yè)運(yùn)維工作經(jīng)驗(yàn)
?研發(fā)項(xiàng)目管理經(jīng)驗(yàn)
?單產(chǎn)品研發(fā)安全生產(chǎn)執(zhí)行者
?能夠在單產(chǎn)品/中型復(fù)雜系統(tǒng)層面推動(dòng)建立完善的研發(fā)安全生產(chǎn)體系,并推動(dòng)落地,保障相關(guān)產(chǎn)品/技術(shù)/系統(tǒng)的可容災(zāi)、可觀測(cè)、可處置、可運(yùn)維、可快恢
?熟練掌握業(yè)內(nèi)主流的研發(fā)安全生產(chǎn)技術(shù)體系
?具有產(chǎn)品級(jí)、中型復(fù)雜系統(tǒng)的研發(fā)安全生產(chǎn)經(jīng)驗(yàn),能夠應(yīng)對(duì)比較復(fù)雜的項(xiàng)目環(huán)境和各類突發(fā)狀況,保障研發(fā)項(xiàng)目的平穩(wěn)落地
?具備參與研發(fā)安全演練的技術(shù)能力,是容災(zāi)演練、紅藍(lán)對(duì)抗、突襲演練等場(chǎng)景下的一線主力
?對(duì)本領(lǐng)域的技術(shù)趨勢(shì)和演進(jìn)有較為深入的了解;
?熟練掌握架構(gòu)設(shè)計(jì)、性能優(yōu)化、穩(wěn)定性優(yōu)化等領(lǐng)域的專業(yè)能力
?精通系統(tǒng)級(jí)需求,對(duì)所負(fù)責(zé)運(yùn)維的產(chǎn)品/系統(tǒng)有較深刻的理解,能夠在工作過程中結(jié)合現(xiàn)狀,持續(xù)發(fā)現(xiàn)并分析當(dāng)下問題,提出解決方案并推動(dòng)落地拿到結(jié)果;
?具備復(fù)雜項(xiàng)目管理、業(yè)務(wù)風(fēng)險(xiǎn)識(shí)別和管控能力,能夠從技術(shù)、運(yùn)營(yíng)、風(fēng)險(xiǎn)、ROI等多方面進(jìn)行分析,并提出切實(shí)解決方案
?具備一定的業(yè)務(wù)線影響力和公信力,能夠影響和協(xié)同跨團(tuán)隊(duì)的資源
?具備智能化/自動(dòng)化運(yùn)維的理念,能夠獨(dú)立負(fù)責(zé)自動(dòng)化運(yùn)維工具/平臺(tái)的開發(fā)工作
?具備業(yè)務(wù)、技術(shù)及運(yùn)維的全局視角,對(duì)日常運(yùn)維指標(biāo)、問題、風(fēng)險(xiǎn)進(jìn)行分析和研究,通過建立模型預(yù)測(cè)風(fēng)險(xiǎn)并能形成解決方案并落地
?具備良好的溝通與協(xié)作能力,能夠深入理解客戶業(yè)務(wù)場(chǎng)景,與客戶SRE團(tuán)隊(duì)高效協(xié)同,共同推動(dòng)其在阿里云上的穩(wěn)定性體系建設(shè);
?聯(lián)動(dòng)內(nèi)部技術(shù)服務(wù)團(tuán)隊(duì),助力客戶提升用云穩(wěn)定性,強(qiáng)化客戶對(duì)阿里云穩(wěn)定性的認(rèn)知與信任。
?了解機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和其他AI相關(guān)技術(shù)的基本原理,能夠運(yùn)用AI技術(shù)進(jìn)行創(chuàng)造性思考,提出新的解決方案或改進(jìn)現(xiàn)有流程的方法。