大語言模型(LLM)雖已展現出卓越的代碼生成潛力,卻依然面臨著一道艱巨的挑戰:如何在有限的計算資源約束下,同步提升對多種編程語言的理解與生成能力,同時不損害其在主流語言上的性能?
為此,中國移動九天團隊創新性地提出了 Hybrid MoE 架構 ——MultiPL-MoE,該方案的核心在于耦合兩個層次的專家選擇機制進行優化:在 Token 層級,采用配備共享專家及新穎門控權重歸一化方法的稀疏 MoE,以實現與段落層級專家的高效協同;在 Segment 層級,則創新性地引入滑動窗口劃分與專家選擇路由策略,使模型能夠精準捕捉不同編程語言的語法結構與深層上下文模式。目前,該項研究已被 EMNLP 2025 接收。
