異構(gòu)計(jì)算開(kāi)發(fā)工程師
3-5萬(wàn)元/月職位描述:
1.深入掌握主流AI芯片架構(gòu),分析硬件系統(tǒng)設(shè)計(jì),輸出軟硬件協(xié)同優(yōu)化方案及性能調(diào)優(yōu)實(shí)踐指導(dǎo);
2.理解AI、大數(shù)據(jù)與HPC類(lèi)應(yīng)用在異構(gòu)計(jì)算環(huán)境下的技術(shù)挑戰(zhàn),結(jié)合AI加速芯片能力,構(gòu)建高性能異構(gòu)計(jì)算解決方案;
3.專(zhuān)注異構(gòu)資源的實(shí)時(shí)性能監(jiān)控與分析,主導(dǎo)系統(tǒng)層級(jí)的性能評(píng)估與業(yè)務(wù)瓶頸識(shí)別,保障異構(gòu)集群的高可用性;
4.推進(jìn)異構(gòu)計(jì)算基礎(chǔ)設(shè)施向serverless架構(gòu)演進(jìn),支撐云原生異構(gòu)計(jì)算體系的技術(shù)升級(jí);
5.把握人工智能與深度學(xué)習(xí)應(yīng)用的發(fā)展方向,參與未來(lái)機(jī)器學(xué)習(xí)算力平臺(tái)的規(guī)劃與設(shè)計(jì);
職位要求
1.具備扎實(shí)的編程基礎(chǔ),熟練掌握C/C++/Go/Rust等語(yǔ)言,具備良好的工程化開(kāi)發(fā)規(guī)范;
2.精通Linux操作系統(tǒng)原理,具備大規(guī)模生產(chǎn)級(jí)系統(tǒng)軟件的研發(fā)與運(yùn)維經(jīng)歷;
3.具備大型GPU集群的監(jiān)控體系搭建、性能剖析(profiling)與資源調(diào)度實(shí)踐經(jīng)驗(yàn);
4.熟悉異構(gòu)計(jì)算編程模型,了解主流AI加速芯片(如NVIDIA,AMD等)的架構(gòu)設(shè)計(jì)與計(jì)算特性;
5.熟悉Kubernetes架構(gòu)與編程模式,有容器化技術(shù)的實(shí)際項(xiàng)目落地經(jīng)驗(yàn);
6.能夠閱讀英文技術(shù)文檔,計(jì)算機(jī)相關(guān)專(zhuān)業(yè)學(xué)歷,具備5年及以上云計(jì)算或AI基礎(chǔ)設(shè)施研發(fā)經(jīng)歷。
優(yōu)先考慮:
1.具備GPU驅(qū)動(dòng)開(kāi)發(fā)背景者優(yōu)先;
2.參與過(guò)GPU穩(wěn)定性保障體系建設(shè)者優(yōu)先;
3.具備GPU熱遷移功能開(kāi)發(fā)者優(yōu)先;
4.有大規(guī)模GPU集群監(jiān)控、在線性能分析及穩(wěn)定性維護(hù)經(jīng)驗(yàn)者優(yōu)先;
5.有Kubernetes二次開(kāi)發(fā)或異構(gòu)資源調(diào)度開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先;
6.熟悉docker/containerd/runc組件,具備OCIHook開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先;