Gazettabyte:Oriole的快速光重構(gòu)網(wǎng)絡(luò)

訊石光通訊網(wǎng) 2025/5/26 10:26:15

  ICC  Oriole Networks近日榮幸地接待了Gazettabyte的Roy Rubenstein到訪其倫敦辦公室。Roy與公司多位高管進(jìn)行了會(huì)面,深入了解了全球首個(gè)面向AI的全光網(wǎng)絡(luò)解決方案PRISM。作為他對(duì)OFC 2025行業(yè)觀察的一部分,Roy撰寫了一篇精彩的訪問報(bào)道——以下是該報(bào)道全文。

  初創(chuàng)公司Oriole Networks開發(fā)出一種光子網(wǎng)絡(luò),用于連接人工智能數(shù)據(jù)中心內(nèi)的眾多加速器芯片。這種快速光子網(wǎng)絡(luò)每100納秒可重構(gòu)一次,旨在取代多層電交換機(jī)。Oriole表示其光子網(wǎng)絡(luò)可顯著節(jié)省電力,并確保網(wǎng)絡(luò)不再成為計(jì)算瓶頸。

Oriole Networks CTO Georgios Zervas

  在倫敦一間沐浴著春日陽光的辦公室里,來自O(shè)riole Networks的團(tuán)隊(duì)詳細(xì)闡述了他們對(duì)AI和高性能計(jì)算(HPC)數(shù)據(jù)中心的愿景。

  Oriole開發(fā)了一種名為Prism的網(wǎng)絡(luò)解決方案,該方案使用快速可重構(gòu)的光路開關(guān)來替代數(shù)據(jù)中心中用于連接AI處理器機(jī)架的傳統(tǒng)電包交換機(jī)層級(jí)。

  電交換機(jī)在數(shù)據(jù)中心中起著關(guān)鍵作用,使由數(shù)千個(gè)加速器芯片組成的AI計(jì)算機(jī)得以擴(kuò)展。這些芯片包括圖形處理器(GPU)、張量處理器(TPU)或更通用的xPU,它們被用來處理大型AI計(jì)算任務(wù)。這些任務(wù)包括將學(xué)習(xí)印刻到大型AI模型上,或者在AI模型訓(xùn)練完成后進(jìn)行推理,即在提示時(shí)分享知識(shí)。

  Oriole的新網(wǎng)絡(luò)基于光路開關(guān),能夠根據(jù)工作負(fù)載的變化迅速切換,按需分配xPU資源。雖然電交換機(jī)已經(jīng)能很好地做到這一點(diǎn)。

  技術(shù)淵源

  Oriole成立于2023年,建立在Georgios Zervas及其UCL研究團(tuán)隊(duì)十多年的研究成果之上。該公司已籌集了3500萬美元資金,其中包括由投資公司Plural的Ian Hogarth領(lǐng)投的2200萬美元A輪融資。Ian Hogarth是一名技術(shù)企業(yè)家,也是英國AI安全研究所的主席。

  目前50人的團(tuán)隊(duì)分布在倫敦、佩恩頓和帕洛阿爾托三地,匯聚了包括Paignton前Lumentum相干收發(fā)器團(tuán)隊(duì)和西倫敦前英特爾Altera部門的光子學(xué)以及針對(duì)超大規(guī)模企業(yè)需求的可編程邏輯設(shè)計(jì)專家。

  AI數(shù)據(jù)中心指標(biāo)

  電力是限制AI數(shù)據(jù)中心生產(chǎn)力的關(guān)鍵因素之一。

  Oriole副總裁Joost Verberk指出:"數(shù)據(jù)中心的電力供給有限,系統(tǒng)和網(wǎng)絡(luò)必須盡可能高效,才能將電力集中供給GPU。"

  Oriole提到了Nvidia的Jensen Huang在其最近GTC活動(dòng)上使用的兩個(gè)指標(biāo)來量化AI數(shù)據(jù)中心的效率。一個(gè)是每兆瓦每秒生成的token數(shù)(tokens/s/MW)。Token是指數(shù)據(jù)元素,例如單詞的一部分或圖像像素條帶,這些會(huì)被輸入或由AI模型生成。生成的token越多,數(shù)據(jù)中心的生產(chǎn)力越高。第二個(gè)指標(biāo)是響應(yīng)速度,以每秒生成的token數(shù)(tokens/s)衡量,用于評(píng)估延遲(響應(yīng)速度)。

  Oriole指出這兩個(gè)指標(biāo)并不總是同步的,但目標(biāo)是用更少的電力生產(chǎn)更多的token并更快地完成。

  討論token意味著數(shù)據(jù)中心的硬件用于推理。然而,Oriole強(qiáng)調(diào),減少訓(xùn)練AI模型所需電力也是一個(gè)目標(biāo)。Oriole的光網(wǎng)絡(luò)解決方案既可用于推理也可用于訓(xùn)練。

  展望未來,只有少數(shù)幾家公司,如超大規(guī)模企業(yè),會(huì)訓(xùn)練最大的AI模型。許多較小規(guī)模的AI集群將被部署并用于推理。

  “到2030年,80%的AI將是推理?!監(jiān)riole首席執(zhí)行官James Regan說道。

  網(wǎng)絡(luò)影響

  推理本質(zhì)上意味著呈現(xiàn)的AI任務(wù)不斷變化。一個(gè)含義是,連接AI處理器的網(wǎng)絡(luò)必須是動(dòng)態(tài)的:為特定任務(wù)抓取處理器并在任務(wù)完成后釋放它們。

  Oriole首席技術(shù)官George Zervas指出,盡管Nvidia使用相同的GPU進(jìn)行訓(xùn)練和推理,但Google最新的TPU Ironwood具有推理增強(qiáng)功能。Google還擁有專用于推理工作的AI計(jì)算集群。與此同時(shí),AWS則使用不同的加速器芯片分別進(jìn)行推理和訓(xùn)練。這兩種處理器的互連帶寬要求(輸入-輸出,或I/O)不同,推理處理器的要求較低。

  對(duì)于訓(xùn)練來說,根據(jù)任務(wù)的并行化方式,處理器/xPUs之間的數(shù)據(jù)交換高度可預(yù)測(cè)?!澳憧梢詣?chuàng)建一系列短時(shí)存在的光學(xué)電路,以最小化集體通信時(shí)間,”Zervas說。然而,開關(guān)必須是確定性和同步的?!澳悴粦?yīng)該有[數(shù)據(jù)包]隊(duì)列,”他說。

  推理過程可能訪問許多AI“專家混合”模型,因此需要一個(gè)更加動(dòng)態(tài)的系統(tǒng)?!安煌膖oken將前往分布在xPUs上的不同專家集,”Zervas說。“有時(shí),一些xPUs會(huì)對(duì)查詢進(jìn)行批處理然后一次性發(fā)送出去?!?

  結(jié)果是非確定性流量,這與傳統(tǒng)云數(shù)據(jù)中心的流量模式更為接近。在這里,網(wǎng)絡(luò)必須在幾百納秒內(nèi)快速重新配置。

  “我們說的是,納米級(jí)速度的光路開關(guān)可以在任何電包交換機(jī)出現(xiàn)的地方發(fā)揮作用,”Zervas說。他強(qiáng)調(diào)即使在如此快的切換速度下,它仍然是一個(gè)電路交換機(jī),因?yàn)閮牲c(diǎn)之間有保證的路徑。這不同于傳統(tǒng)電交換機(jī)中的“盡力而為”的流量,其中數(shù)據(jù)包可能會(huì)被丟棄。

  “在我們的情況下,這個(gè)鏈接可以持續(xù)的時(shí)間就像一個(gè)數(shù)據(jù)包一樣短,”Zervas說?!拔覀兊拈_關(guān)可以在每100納秒重新配置一次?!?

  一旦建立了鏈接,數(shù)據(jù)就會(huì)被發(fā)送到另一端而不遇到排隊(duì)問題。或者正如Zervas所說,這種切換匹配了數(shù)據(jù)包的粒度,但卻提供了只有電路才能保證的交付。

  光學(xué)在數(shù)據(jù)中心網(wǎng)絡(luò)中的日益增長(zhǎng)的角色

  目前,諸如Infiniband或Ethernet等協(xié)議被用來連接xPU機(jī)架,通常被稱為橫向擴(kuò)展網(wǎng)絡(luò)。為了使xPU相互通信,通常使用包含多層電交換機(jī)的傳統(tǒng)Clos或“胖樹”架構(gòu)。

  由于數(shù)據(jù)中心的距離跨度較大,插拔式收發(fā)器通過網(wǎng)絡(luò)接口卡將xPU連接到交換網(wǎng)絡(luò),從而連接到目標(biāo)網(wǎng)絡(luò)接口卡和xPU。

  博通(Broadcom)和英偉達(dá)(Nvidia)宣布推出將光學(xué)器件與硅交換機(jī)集成的電交換機(jī),這是一個(gè)較新的發(fā)展方向。使用這種共封裝光學(xué)器件可以繞過在電交換機(jī)平臺(tái)前面板上安裝插拔式光收發(fā)器的需求。

  谷歌(Google)也開發(fā)了自己的數(shù)據(jù)中心架構(gòu),用光路開關(guān)代替頂層的大電交換機(jī)。在這種混合網(wǎng)絡(luò)中,電交換機(jī)仍然主導(dǎo)整個(gè)網(wǎng)絡(luò)。然而,使用光層可以節(jié)省成本和電力,并允許谷歌在移動(dòng)工作負(fù)載時(shí)重新配置TPU機(jī)架之間的互連。不過,谷歌的光路開關(guān)的配置速度遠(yuǎn)不如Oriole的快,肯定不是納秒級(jí)別的。

  通過其Prism架構(gòu),Oriole采取了一個(gè)激進(jìn)的步驟,即替換所有的電交換機(jī),而不是僅僅替換頂層。結(jié)果是一個(gè)平面無源光網(wǎng)絡(luò)。(見下圖)

  “切換發(fā)生在網(wǎng)絡(luò)邊緣,核心完全是無源的;它僅由玻璃組成,”Verberk說。由此產(chǎn)生的網(wǎng)絡(luò)零數(shù)據(jù)包丟失且高度同步。消除電交換機(jī)減少了整體功耗和系統(tǒng)復(fù)雜性,同時(shí)提供直接的xPU到xPU高速連接。

  Prism架構(gòu)

  Oriole的首次發(fā)布是Prism架構(gòu),該架構(gòu)基于三個(gè)系統(tǒng)組件:

  1. 基于PCIe的800G網(wǎng)絡(luò)接口卡:集成ARM處理器的FPGA支持NVIDIA NCCL和AMD RCCL協(xié)議

  2. XTR可插拔模塊:集成收發(fā)與交換功能,采用可調(diào)諧激光器實(shí)現(xiàn)波長(zhǎng)-空間-時(shí)間三維交換

  3. 無源光子路由器:基于陣列波導(dǎo)光柵(AWG),零功耗實(shí)現(xiàn)波長(zhǎng)路由

  “你可以從GPU直接通過光學(xué)方式連接到另一個(gè)GPU,唯一發(fā)生的[光電]轉(zhuǎn)換是在每個(gè)GPU旁邊的網(wǎng)絡(luò)接口卡上,”Verberk說。

  基于PCIe的網(wǎng)絡(luò)接口卡使用800Gbps光通信技術(shù),并與標(biāo)準(zhǔn)軟件生態(tài)系統(tǒng)集成。該網(wǎng)卡圍繞一個(gè)包含ARM處理器的FPGA構(gòu)建,支持通過插件實(shí)現(xiàn)Nvidia的NCCL(Nvidia集合通信庫)和AMD的RCCL(Radeon開放計(jì)算集合通信庫)等協(xié)議,確保與現(xiàn)有AI軟件框架兼容。

  該網(wǎng)絡(luò)接口卡作為確定性數(shù)據(jù)傳輸設(shè)備,將用于AI計(jì)算的集合操作(例如消息傳遞接口操作如all-reduce、scatter-gather)映射到具有最小延遲的光路徑上。

  網(wǎng)卡的調(diào)度器將訓(xùn)練使用的確定性模式直接映射到波長(zhǎng)和光纖上。同時(shí),它根據(jù)工作負(fù)載需求動(dòng)態(tài)重新配置,使用標(biāo)準(zhǔn)的直接內(nèi)存訪問(DMA)引擎進(jìn)行推理。

  XTR可插拔模塊是Prism交換能力的核心?!霸谝粋€(gè)可插拔外形尺寸單元中,我們實(shí)現(xiàn)了傳輸、接收和交換,”Zervas說。

  光子網(wǎng)絡(luò)結(jié)合了三種維度的交換:光波長(zhǎng)、空間交換和時(shí)隙(時(shí)分復(fù)用)。所選波長(zhǎng)顏色由快速可調(diào)激光器決定。

  XTR可插拔模塊內(nèi)的空間交換指的是所選光纖路徑?!澳阌幸皇饫w,你可以選擇要連接哪根光纖,”Regan說。

  時(shí)間方面指的是100納秒的時(shí)隙,即可調(diào)激光器調(diào)整到新波長(zhǎng)所需的時(shí)間。總體而言,快速改變顏色可用于將數(shù)據(jù)路由到特定節(jié)點(diǎn)。

  “調(diào)制通道可以決定你要連接哪個(gè)通信組或集群,光纖路徑可以決定你要連接的邏輯機(jī)架,而你攜帶的光的顏色則可以決定機(jī)架內(nèi)的節(jié)點(diǎn)ID,”Zervas說。

  光子路由器由無源陣列波導(dǎo)光柵組成,構(gòu)成了Prism的核心?!八鼈冎皇遣A?,這意味著它們是非熱的,”Regan說,強(qiáng)調(diào)了其可靠性和零功耗。這些N×N陣列波導(dǎo)光柵根據(jù)波長(zhǎng)和光纖選擇路由光線,作用類似于棱鏡。

  “在一個(gè)端口,比如說輸入端口,我們有紅色光;如果是紅色,它會(huì)到達(dá)第一個(gè)輸出端,如果是藍(lán)色,到第二個(gè),如果是紫色,到第三個(gè),等等,”Zervas說。

  多層堆疊的多個(gè)陣列波導(dǎo)光柵機(jī)架可以處理大規(guī)模集群,保持單一光跳以維持一致的信噪比和插入損耗。

  “每個(gè)節(jié)點(diǎn)與其他每個(gè)節(jié)點(diǎn)僅通過一次此過程,確保數(shù)千個(gè)GPU之間的一致性能,”Zervas說。

  Prism的功率與計(jì)算效率

  以一個(gè)包含8000個(gè)GPU的集群為例,Prism消除了128個(gè)葉交換機(jī)和64個(gè)脊交換機(jī),減少了60%的光收發(fā)器數(shù)量。對(duì)于超過16000個(gè)GPU的更大AI集群,通常需要第三層交換。這可減少77%的收發(fā)器數(shù)量。

  使用Prism不僅減少了光收發(fā)器的功耗,還通過去除電交換機(jī)及其相關(guān)冷卻需求降低了整體功耗。與以太網(wǎng)包交換不同,Prism的光電路保證無排隊(duì)的數(shù)據(jù)傳輸,每100納秒重新配置一次,與數(shù)據(jù)包持續(xù)時(shí)間匹配。

  在訓(xùn)練方面,Prism將通信開銷降低至1%以下。而在現(xiàn)有網(wǎng)絡(luò)中,這一數(shù)值通常為百分之幾十。這意味著GPU很少等待數(shù)據(jù),而是將時(shí)間用于處理任務(wù)。

  市場(chǎng)與部署策略

  Oriole的目標(biāo)市場(chǎng)包括三類:金融交易企業(yè)、汽車制造商等HPC用戶、交換機(jī)廠商以及超大規(guī)模服務(wù)商。

  “我們的潛在客戶群要廣泛得多,”Regan指出,這與專注于特定芯片廠商和超大規(guī)模服務(wù)商的芯片級(jí)光I/O廠商形成對(duì)比。

  Prism還包括一個(gè)以太網(wǎng)網(wǎng)關(guān),允許其與現(xiàn)有數(shù)據(jù)中心集成,避免完全替換原有系統(tǒng)?!澳憧梢栽跀?shù)據(jù)中心中需要的地方使用它,或者在新建部分使用它,”Regan說。

  Oriole的路線圖包括今夏的實(shí)驗(yàn)室演示、2026年初的Alpha硬件、2026年底的可部署產(chǎn)品以及2027年的量產(chǎn)爬坡。制造外包給高產(chǎn)量合同制造商。

  挑戰(zhàn)與展望

  說服超大規(guī)模服務(wù)商采用非標(biāo)準(zhǔn)軟件棧仍是一個(gè)障礙?!斑@需要合作,”Zervas指出,超大規(guī)模服務(wù)商使用專有協(xié)議。

  Oriole的全棧方法——涵蓋從Nvidia的CUDA庫到光子電路——使其與眾不同。

  “你很少能遇到一家公司在[光子學(xué)和計(jì)算]兩個(gè)領(lǐng)域都擁有深厚專業(yè)知識(shí),”Regan說,這與只專注于光子學(xué)或計(jì)算的競(jìng)爭(zhēng)對(duì)手形成鮮明對(duì)比。

  “我們正在打造一些東西,”Regan說?!拔覀冋诖蛟煲粋€(gè)面向未來的歐洲主要網(wǎng)絡(luò)公司,服務(wù)于AI和任意工作負(fù)載?!?

  原文:https://www.gazettabyte.com/home/2025/5/21/orioles-fast-optical-reconfigurable-network.html 

新聞來源:訊石光通訊網(wǎng)

相關(guān)文章

    暫無記錄!