運(yùn)維工程師
1.1-2萬元/月1、負(fù)責(zé)智算中心的日常運(yùn)維管理,涵蓋現(xiàn)網(wǎng)系統(tǒng)運(yùn)行保障、軟件可用性維護(hù)、網(wǎng)絡(luò)安全防護(hù)、運(yùn)維流程自動(dòng)化及性能監(jiān)控與告警處置等工作。
2、依據(jù)現(xiàn)網(wǎng)操作規(guī)范和服務(wù)標(biāo)準(zhǔn),快速響應(yīng)并解決運(yùn)行中出現(xiàn)的問題,同步落實(shí)預(yù)防措施與容災(zāi)機(jī)制,確保系統(tǒng)穩(wěn)定可靠。
3、根據(jù)智算測(cè)試方案及相關(guān)要求,完成服務(wù)器算力、性能指標(biāo)、網(wǎng)絡(luò)吞吐能力、讀寫IO效率、模型訓(xùn)練速度與精度等關(guān)鍵參數(shù)的達(dá)標(biāo)驗(yàn)證。
4、按項(xiàng)目實(shí)際需求,撰寫測(cè)試結(jié)果報(bào)告及性能評(píng)估分析,并提出可行性優(yōu)化方案。
專業(yè)知識(shí)要求:
1、計(jì)算機(jī)、軟件等相關(guān)專業(yè)背景,大專及以上學(xué)歷,熟悉Linux操作系統(tǒng)與Shell腳本,具備基本開發(fā)能力。
2、掌握容器化技術(shù),能熟練運(yùn)用Docker及Kubernetes進(jìn)行環(huán)境部署與管理。
3、了解算力服務(wù)器整體架構(gòu),熟悉NCCL、HCCL通信機(jī)制以及高性能分布式存儲(chǔ)系統(tǒng)。
4、有數(shù)據(jù)中心、算力平臺(tái)、人工智能企業(yè)或大型大數(shù)據(jù)系統(tǒng)建設(shè)相關(guān)經(jīng)驗(yàn)者優(yōu)先考慮。