ICC訊 在AI大模型加速演進的時代,智算中心光互聯(lián)正經(jīng)歷從“橫向擴展”(Scale-Out)向“縱向擴展”(Scale-Up)拓展的大變革。面對日益嚴苛的帶寬、功耗與時延等挑戰(zhàn),6月5日,凌云光光纖器件與儀器事業(yè)部CTO 張華博士于OptiNet China 2025“智算中心光網(wǎng)絡(luò)論壇”發(fā)表《面向智算中心Scale-Up網(wǎng)絡(luò)光互聯(lián)探討》專題報告,深度解析光I/O與OCS協(xié)同構(gòu)建可重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)(RDCN)的關(guān)鍵趨勢與技術(shù)方案,并分享了基于DBS技術(shù)的高可靠性O(shè)CS方案的最新進展。
AI時代光互聯(lián)需求瓶頸,“四重挑戰(zhàn)”呼喚架構(gòu)革新
隨著大模型參數(shù)規(guī)模呈指數(shù)級增長,智算中心正面臨前所未有的網(wǎng)絡(luò)瓶頸。張華博士指出,以ChatGPT為例,其參數(shù)量預(yù)計達到17萬億。與此同時,GPU算力每兩年增長約3.3倍,而網(wǎng)絡(luò)互聯(lián)與存儲帶寬的增幅僅為1.4倍,形成明顯“剪刀差”。這一不平衡的發(fā)展使得網(wǎng)絡(luò)架構(gòu)正成為AI算力釋放的關(guān)鍵制約因素,也預(yù)示著未來在底層互聯(lián)技術(shù)上存在巨大的優(yōu)化空間,而智算中心網(wǎng)絡(luò)正面臨著“兩高兩低”的核心挑戰(zhàn):① 高帶寬:大模型訓練涉及大量GPU間的數(shù)據(jù)交互和周期性存儲,單卡互聯(lián)帶寬需求可達14.4Tbps。② 高可靠:訓練周期通常以周甚至月為單位,網(wǎng)絡(luò)系統(tǒng)需保持持續(xù)穩(wěn)定運行,任何中斷都可能導(dǎo)致訓練失敗或算力資源浪費。③ 低功耗:光模塊功耗占設(shè)備整體功耗已高達1/3,隨著接口速率與數(shù)量增長,控制互聯(lián)系統(tǒng)能耗成為系統(tǒng)設(shè)計的重要挑戰(zhàn)。④ 低時延:多GPU協(xié)同計算對時延極為敏感,任何微小延遲都會引發(fā)等待與算力浪費。研究顯示,每增加10μs時延,GPU利用率將下降1%至3%。
從實際應(yīng)用層級看,當前光互聯(lián)技術(shù)主要可分為三類核心場景:短距互聯(lián):應(yīng)用于數(shù)據(jù)中心內(nèi)部的Scale-Out與Scale-Up架構(gòu)之間,如光I/O、CPO、800G/1.6T可插拔模塊、LRO等。中長距互聯(lián):如數(shù)據(jù)中心之間的DCI互聯(lián),采用ZR/ZR+等相干光模塊。超長距傳輸:如跨區(qū)域骨干網(wǎng)及海底光纜系統(tǒng),保障全球算力網(wǎng)絡(luò)的高效協(xié)同。
面對上述挑戰(zhàn),傳統(tǒng)以銅纜電互聯(lián)和電交換架構(gòu)為主的短距互聯(lián)也已逐漸力不從心,智算中心光互聯(lián)正在呈現(xiàn)Scale-Out與Scale-Up雙向發(fā)展的架構(gòu)趨勢,光互聯(lián)正成為突破算力互聯(lián)瓶頸、構(gòu)建高效智算中心網(wǎng)絡(luò)的關(guān)鍵路徑。光互聯(lián)從Scale-Out向Scale-Up拓展打造智算中心“超級節(jié)點”
當前主流智算中心多采用Scale-Out架構(gòu),通過網(wǎng)卡與交換機連接多個計算節(jié)點,適用于數(shù)據(jù)并行/流水線并行的相對低帶寬和時延不敏感的集合通信。但隨著訓練/推理任務(wù)規(guī)模擴大,張量并行和專家并行這些對高帶寬和低時延要求更高的集合通信,只有Scale-Up網(wǎng)絡(luò)能夠滿足,但要求Scale-Up網(wǎng)絡(luò)規(guī)模從8卡向百卡乃至千卡擴展,電互聯(lián)架構(gòu)已嚴重制約卡間協(xié)同效率,日益成為性能瓶頸。
張華博士指出,Scale-Up架構(gòu)強調(diào)在物理層面將多塊GPU/XPU進行高密度直連,更好地匹配大模型對強耦合計算的需求。在此趨勢下,光I/O技術(shù)的引入突破了傳統(tǒng)電互聯(lián)在帶寬、時延與傳輸距離方面的限制,成為支撐Scale-Up架構(gòu)的關(guān)鍵技術(shù)。相比銅纜,光I/O具備更大的帶寬密度和更低的能耗,很容易實現(xiàn)跨機柜的GPU穩(wěn)定互聯(lián)。具體來看,光I/O賦能的Scale-Up網(wǎng)絡(luò)有以下顯著優(yōu)勢:超大規(guī)模:GPU卡間傳輸距離可達上百米,支持Scale-Up網(wǎng)絡(luò)擴展至百卡乃至千卡級超節(jié)點。超高帶寬:單GPU節(jié)點可實現(xiàn)高達256Tbps的雙向互聯(lián)帶寬,是傳統(tǒng)電互聯(lián)架構(gòu)的數(shù)十倍。超低時延:端到端傳輸時延可壓縮至百納秒級,顯著提升GPU協(xié)同計算效率。
此外,OCS(全光交換)技術(shù)的引入,為Scale-Up架構(gòu)提供了物理層的拓撲重構(gòu)能力。通過光層級聯(lián)、動態(tài)切換與信號透明傳輸,OCS與光I/O的協(xié)同組合構(gòu)建出可重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)(RDCN),為未來AI集群提供更高性能、更低能耗與更強彈性的新一代互聯(lián)底座。光I/O技術(shù)突破銅纜瓶頸加速走向規(guī)模部署
在支撐AI大模型訓練的算力架構(gòu)演進中,光I/O作為高密度、低功耗、低時延的關(guān)鍵互聯(lián)技術(shù),正逐步替代傳統(tǒng)電互聯(lián),成為構(gòu)建Scale-Up網(wǎng)絡(luò)“超級節(jié)點”的核心方案。尤其在銅纜在帶寬、能耗與傳輸距離上的局限日益凸顯的背景下,光I/O的技術(shù)落地與產(chǎn)業(yè)化進展,正在推動AI基礎(chǔ)設(shè)施完成從“銅”到“光”的關(guān)鍵跨越。報告中介紹了多家領(lǐng)先廠商在光I/O技術(shù)上取得突破性進展:Ayar Labs推出業(yè)界首款符合UCIe規(guī)范的光子互聯(lián)芯粒TeraPHY,采用微環(huán)調(diào)制技術(shù),可實現(xiàn)高達8.192Tbps的雙向帶寬,并已在富士通 A64FX 處理器上實現(xiàn)原生光口部署。Lightmatter在OFC 2025發(fā)布Passage L200光引擎,采用波分與空分復(fù)用架構(gòu),單芯片帶寬高達56Tbps,具備3D封裝與堆疊能力,定位于大規(guī)模AI集群的高密度部署。Avicena則以microLED技術(shù)實現(xiàn)6.4Tbps級光連接,具備低功耗、高可靠、耐高溫等優(yōu)勢,且兼容CMOS工藝,展現(xiàn)出極強的工程化潛力。這些技術(shù)路線的并行推進,標志著光I/O從實驗室走向量產(chǎn)部署的關(guān)鍵拐點已至。
全光交換OCS技術(shù)賦能靈活拓撲與系統(tǒng)彈性
在傳統(tǒng)數(shù)據(jù)中心中,網(wǎng)絡(luò)拓撲通常為靜態(tài)結(jié)構(gòu),適配穩(wěn)定的流量模式。然而,AI訓練任務(wù)具有突發(fā)性強、流量分布時空不均等特點,尤其在大模型并行計算中,不同階段對帶寬和拓撲需求差異顯著。這就要求底層網(wǎng)絡(luò)具備快速重構(gòu)能力,以適應(yīng)多任務(wù)切換與資源調(diào)度的靈活性。張華博士在報告中指出,全光交換(OCS,Optical Circuit Switch)技術(shù),正是應(yīng)對這一挑戰(zhàn)的關(guān)鍵手段。相比傳統(tǒng)電交換,OCS通過純光信號直接切換物理鏈路,無需進行電光轉(zhuǎn)換,具備高帶寬、低時延、低功耗與協(xié)議無關(guān)等優(yōu)勢,可在毫秒級完成拓撲調(diào)整或故障切換,顯著提升網(wǎng)絡(luò)穩(wěn)定性與彈性。在AI訓練集群中,OCS可根據(jù)模型結(jié)構(gòu)與計算負載動態(tài)調(diào)整互聯(lián)結(jié)構(gòu),從而實現(xiàn)算力資源的最優(yōu)利用。
報告指出,OCS在當前智算中心中的應(yīng)用正逐步走向成熟,典型代表如Google谷歌23年發(fā)表論文提到的TPU v4集群已全面落地基于OCS+光模塊的3D Torus網(wǎng)絡(luò)架構(gòu)。該系統(tǒng)采用136×136端口OCS配合800G可插拔光模塊,實現(xiàn)4096張TPU的靈活互聯(lián),并在以下維度上實現(xiàn)顯著突破:性能提升:可靈活重構(gòu)物理拓撲,匹配不同模型通信模式,整體訓練性能最高提升 3.3倍;系統(tǒng)可靠性增強:在主機可靠性僅99%的條件下,系統(tǒng)仍能保持75%的算力吞吐能力。
此外,Google谷歌在2025年Cloud Next大會上,宣布了最新智算集群Ironwood進展,已實現(xiàn)支撐9216張TPU卡間互聯(lián),同樣基于OCS+800G光模塊方案,相比TPUv2,計算性能提升3600倍,展現(xiàn)出OCS在AI集群架構(gòu)中的廣闊前景??芍貥?gòu)數(shù)據(jù)中心網(wǎng)絡(luò)(RDCN)光互聯(lián)光I/O + OCS協(xié)同構(gòu)建“光速核心”
面對AI大模型訓練對帶寬密度、資源調(diào)度與系統(tǒng)彈性的極致要求,報告提出以光I/O與OCS技術(shù)為核心,構(gòu)建可重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)(RDCN)架構(gòu),實現(xiàn)物理層的靈活互聯(lián)與資源解耦。RDCN架構(gòu)融合了橫向擴展的Scale-Out網(wǎng)絡(luò)與縱向擴展的Scale-Up網(wǎng)絡(luò),通過OCS核心交換節(jié)點與GPU光I/O直連,實現(xiàn)從芯片到系統(tǒng)的全光互聯(lián)。以哥倫比亞大學提出的SiPAM硅光互連架構(gòu)為例,OCS+OIO組合在訓練效率上相較傳統(tǒng)Nvlink平臺提升高達7.5倍,充分驗證了全光互聯(lián)在AI集群中的性能潛力。
凌云光高可靠性O(shè)CS方案賦能RDCN落地部署
在RDCN架構(gòu)所需的大規(guī)模光交換領(lǐng)域,凌云光與HUBER+SUHNER POLATIS合作,提出基于DBS(DirectLight Beam Steering)技術(shù)的高可靠OCS方案展現(xiàn)出顯著優(yōu)勢。相比傳統(tǒng)MEMS架構(gòu),DBS方案采用壓電陶瓷驅(qū)動準直器旋轉(zhuǎn),實現(xiàn)空間直耦精確對準,具備更高可靠性、更優(yōu)回波損耗、更低插損等特點,相比與高驅(qū)動電壓的MEMS方案,DBS平臺OCS在大端口數(shù)和長期工作穩(wěn)定可靠性方面更具擴展?jié)摿ΑkS著OCS端口規(guī)模持續(xù)擴大,系統(tǒng)對交換模塊的損耗及可靠性提出更高要求。正如Google谷歌在其論文《Mission Apollo: Landing Optical CircuitSwitching at Datacenter Scale》中指出,“相較于MEMS架構(gòu),基于壓電陶瓷的光交換技術(shù)在插入和回波損耗方面具備天然優(yōu)勢,當MEMS方案在良率和可靠性上不易管理時,技術(shù)路線的選擇也可能隨之轉(zhuǎn)變?!边@一趨勢也為DBS架構(gòu)在下一代OCS系統(tǒng)中的廣泛應(yīng)用提供了有力印證。
凌云光OCS產(chǎn)品目前已支持最大576×576端口規(guī)模,典型插損僅2.7dB,回波損耗優(yōu)于–50dB,并可靈活配置8×8起的多種矩陣規(guī)格。產(chǎn)品還具備暗光配置與雙向通道(Bidi)等特性,可顯著提升端口利用率和系統(tǒng)架構(gòu)自由度,并且已通過Telcordia GR-63民用級、及MIL-STD-810G等嚴苛抗震與極端環(huán)境測試,該產(chǎn)品累計運行超 188億端口小時,穩(wěn)定性與工程化水平均處于業(yè)內(nèi)領(lǐng)先。
聚焦光子集成與全光網(wǎng)絡(luò)持續(xù)推動AI網(wǎng)絡(luò)架構(gòu)演進
隨著大模型與智能算力持續(xù)縱深發(fā)展,傳統(tǒng)電互聯(lián)架構(gòu)已難以滿足智算中心復(fù)雜的互聯(lián)需求。以硅基光電子集成為代表的光I/O技術(shù),可支撐百卡乃至千卡Scale-Up網(wǎng)絡(luò)規(guī)模,成為下一代智算中心縱向擴展的熱點方案;光I/O+OCS全光交換實現(xiàn)物理拓撲的靈活重構(gòu),故障快速恢復(fù)、速率平滑升級,將成為RDCN(可重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò))不可或缺的底層支撐技術(shù)。正如Google谷歌工程副總裁在OFC 2025上所言:“我們正在見證新網(wǎng)絡(luò)架構(gòu)的文藝復(fù)興(What we are seeing is a new renaissance for new architectures!)”。凌云光以光I/O和OCS為突破口,深耕光子集成與全光網(wǎng)絡(luò)領(lǐng)域,推動AI智算中心底層互聯(lián)架構(gòu)重塑。未來,凌云光將繼續(xù)攜手合作伙伴,圍繞高密度、低功耗、智能調(diào)度等方向持續(xù)突破,加速邁向“光速核心”的智能互聯(lián)新時代。
新聞來源:訊石光通訊網(wǎng)
相關(guān)文章