Golang
1.8-2.5萬元/月崗位核心職責(zé)
1、負(fù)責(zé)GPU算力平臺(tái)底層調(diào)度系統(tǒng)的設(shè)計(jì)與開發(fā),基于Golang實(shí)現(xiàn)分布式任務(wù)調(diào)度引擎,包括任務(wù)優(yōu)先級排序、GPU資源(算力/顯存)動(dòng)態(tài)分配、節(jié)點(diǎn)負(fù)載均衡及故障自愈邏輯;
2、主導(dǎo)算力平臺(tái)API網(wǎng)關(guān)的架構(gòu)設(shè)計(jì)與開發(fā),處理千萬級并發(fā)請求的路由轉(zhuǎn)發(fā)、流量控制(限流/熔斷)、身份認(rèn)證與權(quán)限校驗(yàn),保障網(wǎng)關(guān)與調(diào)度系統(tǒng)的高效協(xié)同;
3、參與GPU集群資源管理模塊開發(fā),對接Kubernetes/Docker容器化技術(shù),實(shí)現(xiàn)算力資源的細(xì)粒度隔離(如MIG/GPUSharing)及彈性伸縮;
優(yōu)化調(diào)度系統(tǒng)與網(wǎng)關(guān)的性能瓶頸,通過代碼級優(yōu)化、協(xié)議改進(jìn)(如HTTP/2、gRPC)等方式提升系統(tǒng)吞吐量與響應(yīng)速度,保障高并發(fā)場景下的穩(wěn)定性;
4、與硬件團(tuán)隊(duì)、算法團(tuán)隊(duì)協(xié)作,將GPU架構(gòu)特性(如算力調(diào)度策略、顯存復(fù)用)融入底層系統(tǒng),支撐大模型訓(xùn)練/推理任務(wù)的高效運(yùn)行;
負(fù)責(zé)系統(tǒng)監(jiān)控與問題排查體系建設(shè),設(shè)計(jì)關(guān)鍵指標(biāo)(如調(diào)度延遲、網(wǎng)關(guān)錯(cuò)誤率)的告警機(jī)制,快速響應(yīng)并解決線上技術(shù)問題。
任職要求
1、學(xué)歷:雙一流高校統(tǒng)招本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程、電子信息等相關(guān)專業(yè);
2、經(jīng)驗(yàn):3-5年軟件開發(fā)經(jīng)驗(yàn),其中至少3年以上Golang全棧開發(fā)經(jīng)驗(yàn),有分布式系統(tǒng)或底層中間件開發(fā)經(jīng)歷者優(yōu)先;
3、既往在又拍云、厚德云、慧星云、PPIO工作優(yōu)先考慮
技術(shù)能力:
1、精通Golang并發(fā)編程、內(nèi)存管理及性能調(diào)優(yōu),熟悉Go語言標(biāo)準(zhǔn)庫及常用框架(如Gin、Go-Micro);
2、深入理解分布式系統(tǒng)原理,有底層調(diào)度系統(tǒng)(如任務(wù)調(diào)度、資源管理)或API網(wǎng)關(guān)開發(fā)經(jīng)驗(yàn),熟悉調(diào)度算法(如FCFS、優(yōu)先級調(diào)度、負(fù)載均衡);
3、熟悉容器化技術(shù)(Kubernetes/Docker),了解GPU資源在容器中的調(diào)度機(jī)制(如nvidia-docker、DevicePlugin);
4、掌握API網(wǎng)關(guān)核心技術(shù)(如路由轉(zhuǎn)發(fā)、限流算法、認(rèn)證協(xié)議OAuth2.0/JWT),有Kong/Traefik二次開發(fā)或自定義網(wǎng)關(guān)實(shí)現(xiàn)經(jīng)驗(yàn)者優(yōu)先;
加分項(xiàng):
1、有AI算力平臺(tái)、超算中心調(diào)度系統(tǒng)開發(fā)經(jīng)驗(yàn),了解GPU架構(gòu)(如A100/H100)及算力調(diào)度特性;
2、熟悉分布式存儲(chǔ)(如Ceph)、消息隊(duì)列(如Kafka/RabbitMQ)在高并發(fā)場景的應(yīng)用;
3、有開源項(xiàng)目貢獻(xiàn)經(jīng)驗(yàn)(如Kubernetes生態(tài)、Golang中間件)。