深度學(xué)習(xí)推理系統(tǒng)研發(fā)專家-機(jī)器學(xué)習(xí)PAI
3-6萬元/月●設(shè)計(jì)和實(shí)現(xiàn)高效的分布式推理架構(gòu),提升多節(jié)點(diǎn)、多GPU環(huán)境下的推理速度和資源利用率。開發(fā)智能的請(qǐng)求調(diào)度算法,確保高并發(fā)場(chǎng)景下的最優(yōu)響應(yīng)時(shí)間和吞吐量。對(duì)推理引擎的運(yùn)行時(shí)環(huán)境進(jìn)行深度優(yōu)化,減少延遲,提高整體性能。針對(duì)多種異構(gòu)AI加速硬件(如NVIDIAGPU,AMDGPU,NPU等),對(duì)核心算子進(jìn)行極致性能優(yōu)化,最大化算力和訪存帶寬利用率。
●探索并實(shí)現(xiàn)極低bit量化技術(shù)和稀疏化,減少模型存儲(chǔ)和計(jì)算資源消耗,同時(shí)保持推理精度。探索更高效的解碼算法,提升生成任務(wù)的推理速度。
●設(shè)計(jì)并實(shí)現(xiàn)能夠處理大規(guī)模并發(fā)請(qǐng)求的系統(tǒng)架構(gòu),確保極端負(fù)載下的穩(wěn)定性和性能。引入容錯(cuò)機(jī)制、自動(dòng)恢復(fù)和監(jiān)控報(bào)警系統(tǒng),保證系統(tǒng)的高可用性和穩(wěn)定性。構(gòu)建靈活的系統(tǒng)架構(gòu),支持動(dòng)態(tài)擴(kuò)展,以應(yīng)對(duì)未來業(yè)務(wù)增長(zhǎng)和技術(shù)演進(jìn)的需求。
●持續(xù)關(guān)注并跟進(jìn)業(yè)界技術(shù)發(fā)展,尤其是超長(zhǎng)上下文、COT思維鏈、多模態(tài)融合等方向。積極嘗試和探索新的推理優(yōu)化方向,提出并驗(yàn)證創(chuàng)新性的解決方案。
職位描述
●扎實(shí)的工程能力,優(yōu)良的編程風(fēng)格,熟悉Python/C++語言和常用設(shè)計(jì)模式,具備復(fù)雜系統(tǒng)的設(shè)計(jì)開發(fā)調(diào)試能力。
●熟悉深度學(xué)習(xí)的基礎(chǔ)理論概念,了解主流模型算法,能夠熟練應(yīng)用PyTorch、TensorFlow等框架。
●優(yōu)良的溝通表達(dá)能力和團(tuán)隊(duì)合作經(jīng)驗(yàn),具備快速學(xué)習(xí)的能力,以及深入鉆研技術(shù)問題的耐心。
●熟悉計(jì)算機(jī)體系結(jié)構(gòu)基礎(chǔ)知識(shí),有扎實(shí)的高性能Kernel開發(fā)(CUDA/Triton/ROCM等)、推理引擎優(yōu)化(vLLM/SGLang等)、模型算法優(yōu)化(量化/稀疏等)、AI計(jì)算資源調(diào)度優(yōu)化等方面的經(jīng)驗(yàn)。
加分項(xiàng):
●有突出的學(xué)術(shù)背景和創(chuàng)新研究能力,發(fā)表過相關(guān)領(lǐng)域的高水平論文或?qū)@?br>
●有基于cutlass/cute開發(fā)和極致優(yōu)化高性能Kernel并在實(shí)際生產(chǎn)環(huán)境落地的經(jīng)驗(yàn)。
●對(duì)大型語言模型(LLM)等重點(diǎn)場(chǎng)景的系統(tǒng)優(yōu)化或前沿算法有深入務(wù)實(shí)的經(jīng)驗(yàn)。
●作為核心成員開發(fā)實(shí)際應(yīng)用的大規(guī)模AI系統(tǒng),或參與業(yè)界流行的開源項(xiàng)目,具備豐富的實(shí)戰(zhàn)經(jīng)驗(yàn)和成功案例。