阿里云智能-運維穩(wěn)定性架構師-杭州/北京
4-7萬元/月部門介紹:云智能集團承載著阿里巴巴集團在高科技領域的核心技術和業(yè)務創(chuàng)新,致力于構建數(shù)字經(jīng)濟時代的企業(yè)級云計算服務平臺,并且在全球范圍內(nèi)提供領先的技術解決方案和服務,具備超大業(yè)務規(guī)模以及最復雜的企業(yè)級云計算服務。
云智能集團SRE團隊的使命是保障云智能集團生產(chǎn)環(huán)境的穩(wěn)定性以及企業(yè)級云計算數(shù)據(jù)可靠性,服務連續(xù)性。如何保障云上客戶的業(yè)務連續(xù)運行以及不止于99.99%的可用性,是我們面臨的巨大挑戰(zhàn)。
云智能集團SRE團隊的目標是建立技術和管理結(jié)合的體系化穩(wěn)定性保障體系,包括但不局限于:
1.制定穩(wěn)定性規(guī)范和度量,如涵蓋健壯性架構、研發(fā)質(zhì)量、發(fā)布變更、生產(chǎn)環(huán)境運行管理等方面,把穩(wěn)定性貫徹到阿里云技術研發(fā)體系
2.推動開展穩(wěn)定性架構治理重大戰(zhàn)役,如全棧容災,變更灰度,應急1-5-10,資損防控等戰(zhàn)役,將穩(wěn)定性風險快速持續(xù)收斂
3.構建穩(wěn)定性技術中臺,無人值守變更,紅藍攻防,應急協(xié)同,風險隱患巡檢,監(jiān)控發(fā)現(xiàn)等方面建設平臺化能力,讓穩(wěn)定性工程更簡單
4.應急處置生產(chǎn)環(huán)境故障,應急響應,處置協(xié)同,故障定位,故障恢復,故障復盤改進
5.通過技術和服務全方位保障客戶業(yè)務的大型活動穩(wěn)定性保障,如淘天集團雙11,亞運會、奧運會以及客戶業(yè)務關鍵期保障
崗位職責:
1、技術洞察和問題定義
?洞察領域發(fā)展方向,熟悉技術標準和前沿進展,跟蹤關鍵競對的技術和方法。
?結(jié)合產(chǎn)品現(xiàn)狀提出待解決的問題,理解業(yè)務目標并分解到技術產(chǎn)品待解決問題中。
2、架構規(guī)劃
?對所在領域業(yè)務進行架構抽象,建立整體業(yè)務領域模型。
?制定系統(tǒng)整體架構規(guī)劃和技術路線圖,確定系統(tǒng)目標和方向,綜合考慮應用架構、數(shù)據(jù)架構、關鍵技術選型、部署架構等多方面因素,確保系統(tǒng)整體質(zhì)量。
3、架構設計
?設計架構方案,包括系統(tǒng)組件、模塊間的關系、接口、數(shù)據(jù)流和數(shù)據(jù)結(jié)構、基礎設施等,保障系統(tǒng)的安全性、穩(wěn)定性、易擴展、易維護和性能。
?把握業(yè)務全鏈路技術方案設計,確保技術可實現(xiàn)性、易用性,無重大風險。
?拆解工作,把復雜目標拆成一系列可以落到具體團隊或個人的工作。
4、架構落地
?識別優(yōu)先級、明確目標步驟和應急方案,保障架構實施落地和用戶體驗。
?梳理關鍵技術難點,指導開發(fā)團隊進行突破和攻關,對開發(fā)過程進行監(jiān)督和管理。
?負責部分核心代碼編寫,虛實結(jié)合,做好架構管理。
5、架構治理和演進
?制定架構的原則、規(guī)范與治理機制,并且落實到具體的項目研發(fā)中。
?負責架構管控,參與領域的重大架構決策,管控架構變更。
?識別不合理業(yè)務和架構設計,定期評估架構成熟度。
?基于業(yè)務需求和技術演進目標,指導開發(fā)團隊對系統(tǒng)進行優(yōu)化和擴展、解決技術債務,推動架構持續(xù)演進。
6、技術沉淀和賦能
?團隊技術架構分享、技術文檔和架構規(guī)范沉淀、學習引入新技術,賦能開發(fā)團隊的技術成長,做好知識傳承。
職位要求
?8年以上工作經(jīng)驗,至少6年大型分布式系統(tǒng)或云計算重要領域的運維架構及開發(fā)經(jīng)驗
?能夠梳理、設計大型系統(tǒng)的架構,通過治理、改進、重構等方式主動降低全局復雜度,具體體現(xiàn)在對于困難問題,能夠提出并落地簡單的易于維護的解決方案。
?能夠合理地對于1-2年的系統(tǒng)演進和技術選型做出決策,能夠識別技術復用的機會,在項目中復用團隊內(nèi)外部的技術,或者產(chǎn)出能被其他團隊復用的技術。
?有站在公司角度上的全局意識(或)技術產(chǎn)生業(yè)務增值。
?能夠主導核心業(yè)務或技術系統(tǒng)的架構設計和實際編碼,通過對代碼的codereview、設計評審、單測覆蓋,確保功能的交付質(zhì)量和魯棒性,有較強的問題分析和問題解決能力,是關鍵問題終結(jié)者
?在穩(wěn)定性、資損、安全等方面能夠系統(tǒng)性保障,并持續(xù)跟進進展,有效預判并防范風險
?能識別產(chǎn)品現(xiàn)狀問題,并分解為多個可管理的小問題,更好地指導技術團隊工作。
?能平衡各相關方訴求,平衡產(chǎn)品及架構的長、短期需要,推動關鍵領域問題解決。
?產(chǎn)品線研發(fā)安全生產(chǎn)構建者
?能夠在多產(chǎn)品/小型產(chǎn)品線/中型復雜系統(tǒng)層面嚴格遵循研發(fā)安全生產(chǎn)規(guī)范和流程,保障相關產(chǎn)品/技術/系統(tǒng)的可容災、可觀測、可處置、可運維、可快恢
?熟練掌握業(yè)內(nèi)主流的研發(fā)安全生產(chǎn)技術體系,并在團隊內(nèi)有效落地應用,提升產(chǎn)品/技術/系統(tǒng)的安全和穩(wěn)定性
?具有跨產(chǎn)品、中型復雜系統(tǒng)的研發(fā)安全生產(chǎn)經(jīng)驗,能夠應對比較復雜的項目環(huán)境和各類突發(fā)狀況,保障研發(fā)項目的平穩(wěn)落地
?在所負責團隊層面嚴格遵循安全穩(wěn)定演練體系,通過容災演練、紅藍對抗、突襲演練等方式提前發(fā)現(xiàn)系統(tǒng)風險,基于穩(wěn)定性演練持續(xù)培養(yǎng)技術團隊的研發(fā)安全生產(chǎn)意識和專業(yè)能力
?了解產(chǎn)品基本面,熟悉產(chǎn)品的全鏈路,能有效說明產(chǎn)品的本質(zhì)。
?熟悉技術領域相關的前沿信息渠道,并能在團隊中進行技術分享。
?熟悉競對和對標產(chǎn)品的核心技術指標、優(yōu)劣勢對比,對我們?nèi)绾巫汾s和保持優(yōu)勢有一定的理解。
?通過內(nèi)外部渠道理解客戶訴求,并能結(jié)合自己的技術理解形成有價值的洞見。