用戶名: 密碼: 驗(yàn)證碼:

Gazettabyte:Oriole的快速光重構(gòu)網(wǎng)絡(luò)

摘要:英國初創(chuàng)公司Oriole Networks推出全球首個全光網(wǎng)絡(luò)架構(gòu)PRISM,通過納秒級光交換技術(shù)徹底取代傳統(tǒng)電交換設(shè)備,解決AI計(jì)算中的網(wǎng)絡(luò)瓶頸。該方案可連接百萬級GPU集群,降低能耗40%以上,預(yù)計(jì)2027年實(shí)現(xiàn)量產(chǎn)。

  ICC  Oriole Networks近日榮幸地接待了Gazettabyte的Roy Rubenstein到訪其倫敦辦公室。Roy與公司多位高管進(jìn)行了會面,深入了解了全球首個面向AI的全光網(wǎng)絡(luò)解決方案PRISM。作為他對OFC 2025行業(yè)觀察的一部分,Roy撰寫了一篇精彩的訪問報(bào)道——以下是該報(bào)道全文。

  初創(chuàng)公司Oriole Networks開發(fā)出一種光子網(wǎng)絡(luò),用于連接人工智能數(shù)據(jù)中心內(nèi)的眾多加速器芯片。這種快速光子網(wǎng)絡(luò)每100納秒可重構(gòu)一次,旨在取代多層電交換機(jī)。Oriole表示其光子網(wǎng)絡(luò)可顯著節(jié)省電力,并確保網(wǎng)絡(luò)不再成為計(jì)算瓶頸。

Oriole Networks CTO Georgios Zervas

  在倫敦一間沐浴著春日陽光的辦公室里,來自O(shè)riole Networks的團(tuán)隊(duì)詳細(xì)闡述了他們對AI和高性能計(jì)算(HPC)數(shù)據(jù)中心的愿景。

  Oriole開發(fā)了一種名為Prism的網(wǎng)絡(luò)解決方案,該方案使用快速可重構(gòu)的光路開關(guān)來替代數(shù)據(jù)中心中用于連接AI處理器機(jī)架的傳統(tǒng)電包交換機(jī)層級。

  電交換機(jī)在數(shù)據(jù)中心中起著關(guān)鍵作用,使由數(shù)千個加速器芯片組成的AI計(jì)算機(jī)得以擴(kuò)展。這些芯片包括圖形處理器(GPU)、張量處理器(TPU)或更通用的xPU,它們被用來處理大型AI計(jì)算任務(wù)。這些任務(wù)包括將學(xué)習(xí)印刻到大型AI模型上,或者在AI模型訓(xùn)練完成后進(jìn)行推理,即在提示時分享知識。

  Oriole的新網(wǎng)絡(luò)基于光路開關(guān),能夠根據(jù)工作負(fù)載的變化迅速切換,按需分配xPU資源。雖然電交換機(jī)已經(jīng)能很好地做到這一點(diǎn)。

  技術(shù)淵源

  Oriole成立于2023年,建立在Georgios Zervas及其UCL研究團(tuán)隊(duì)十多年的研究成果之上。該公司已籌集了3500萬美元資金,其中包括由投資公司Plural的Ian Hogarth領(lǐng)投的2200萬美元A輪融資。Ian Hogarth是一名技術(shù)企業(yè)家,也是英國AI安全研究所的主席。

  目前50人的團(tuán)隊(duì)分布在倫敦、佩恩頓和帕洛阿爾托三地,匯聚了包括Paignton前Lumentum相干收發(fā)器團(tuán)隊(duì)和西倫敦前英特爾Altera部門的光子學(xué)以及針對超大規(guī)模企業(yè)需求的可編程邏輯設(shè)計(jì)專家。

  AI數(shù)據(jù)中心指標(biāo)

  電力是限制AI數(shù)據(jù)中心生產(chǎn)力的關(guān)鍵因素之一。

  Oriole副總裁Joost Verberk指出:"數(shù)據(jù)中心的電力供給有限,系統(tǒng)和網(wǎng)絡(luò)必須盡可能高效,才能將電力集中供給GPU。"

  Oriole提到了Nvidia的Jensen Huang在其最近GTC活動上使用的兩個指標(biāo)來量化AI數(shù)據(jù)中心的效率。一個是每兆瓦每秒生成的token數(shù)(tokens/s/MW)。Token是指數(shù)據(jù)元素,例如單詞的一部分或圖像像素條帶,這些會被輸入或由AI模型生成。生成的token越多,數(shù)據(jù)中心的生產(chǎn)力越高。第二個指標(biāo)是響應(yīng)速度,以每秒生成的token數(shù)(tokens/s)衡量,用于評估延遲(響應(yīng)速度)。

  Oriole指出這兩個指標(biāo)并不總是同步的,但目標(biāo)是用更少的電力生產(chǎn)更多的token并更快地完成。

  討論token意味著數(shù)據(jù)中心的硬件用于推理。然而,Oriole強(qiáng)調(diào),減少訓(xùn)練AI模型所需電力也是一個目標(biāo)。Oriole的光網(wǎng)絡(luò)解決方案既可用于推理也可用于訓(xùn)練。

  展望未來,只有少數(shù)幾家公司,如超大規(guī)模企業(yè),會訓(xùn)練最大的AI模型。許多較小規(guī)模的AI集群將被部署并用于推理。

  “到2030年,80%的AI將是推理。”O(jiān)riole首席執(zhí)行官James Regan說道。

  網(wǎng)絡(luò)影響

  推理本質(zhì)上意味著呈現(xiàn)的AI任務(wù)不斷變化。一個含義是,連接AI處理器的網(wǎng)絡(luò)必須是動態(tài)的:為特定任務(wù)抓取處理器并在任務(wù)完成后釋放它們。

  Oriole首席技術(shù)官George Zervas指出,盡管Nvidia使用相同的GPU進(jìn)行訓(xùn)練和推理,但Google最新的TPU Ironwood具有推理增強(qiáng)功能。Google還擁有專用于推理工作的AI計(jì)算集群。與此同時,AWS則使用不同的加速器芯片分別進(jìn)行推理和訓(xùn)練。這兩種處理器的互連帶寬要求(輸入-輸出,或I/O)不同,推理處理器的要求較低。

  對于訓(xùn)練來說,根據(jù)任務(wù)的并行化方式,處理器/xPUs之間的數(shù)據(jù)交換高度可預(yù)測?!澳憧梢詣?chuàng)建一系列短時存在的光學(xué)電路,以最小化集體通信時間,”Zervas說。然而,開關(guān)必須是確定性和同步的?!澳悴粦?yīng)該有[數(shù)據(jù)包]隊(duì)列,”他說。

  推理過程可能訪問許多AI“專家混合”模型,因此需要一個更加動態(tài)的系統(tǒng)?!安煌膖oken將前往分布在xPUs上的不同專家集,”Zervas說。“有時,一些xPUs會對查詢進(jìn)行批處理然后一次性發(fā)送出去。”

  結(jié)果是非確定性流量,這與傳統(tǒng)云數(shù)據(jù)中心的流量模式更為接近。在這里,網(wǎng)絡(luò)必須在幾百納秒內(nèi)快速重新配置。

  “我們說的是,納米級速度的光路開關(guān)可以在任何電包交換機(jī)出現(xiàn)的地方發(fā)揮作用,”Zervas說。他強(qiáng)調(diào)即使在如此快的切換速度下,它仍然是一個電路交換機(jī),因?yàn)閮牲c(diǎn)之間有保證的路徑。這不同于傳統(tǒng)電交換機(jī)中的“盡力而為”的流量,其中數(shù)據(jù)包可能會被丟棄。

  “在我們的情況下,這個鏈接可以持續(xù)的時間就像一個數(shù)據(jù)包一樣短,”Zervas說?!拔覀兊拈_關(guān)可以在每100納秒重新配置一次?!?

  一旦建立了鏈接,數(shù)據(jù)就會被發(fā)送到另一端而不遇到排隊(duì)問題?;蛘哒鏩ervas所說,這種切換匹配了數(shù)據(jù)包的粒度,但卻提供了只有電路才能保證的交付。

  光學(xué)在數(shù)據(jù)中心網(wǎng)絡(luò)中的日益增長的角色

  目前,諸如Infiniband或Ethernet等協(xié)議被用來連接xPU機(jī)架,通常被稱為橫向擴(kuò)展網(wǎng)絡(luò)。為了使xPU相互通信,通常使用包含多層電交換機(jī)的傳統(tǒng)Clos或“胖樹”架構(gòu)。

  由于數(shù)據(jù)中心的距離跨度較大,插拔式收發(fā)器通過網(wǎng)絡(luò)接口卡將xPU連接到交換網(wǎng)絡(luò),從而連接到目標(biāo)網(wǎng)絡(luò)接口卡和xPU。

  博通(Broadcom)和英偉達(dá)(Nvidia)宣布推出將光學(xué)器件與硅交換機(jī)集成的電交換機(jī),這是一個較新的發(fā)展方向。使用這種共封裝光學(xué)器件可以繞過在電交換機(jī)平臺前面板上安裝插拔式光收發(fā)器的需求。

  谷歌(Google)也開發(fā)了自己的數(shù)據(jù)中心架構(gòu),用光路開關(guān)代替頂層的大電交換機(jī)。在這種混合網(wǎng)絡(luò)中,電交換機(jī)仍然主導(dǎo)整個網(wǎng)絡(luò)。然而,使用光層可以節(jié)省成本和電力,并允許谷歌在移動工作負(fù)載時重新配置TPU機(jī)架之間的互連。不過,谷歌的光路開關(guān)的配置速度遠(yuǎn)不如Oriole的快,肯定不是納秒級別的。

  通過其Prism架構(gòu),Oriole采取了一個激進(jìn)的步驟,即替換所有的電交換機(jī),而不是僅僅替換頂層。結(jié)果是一個平面無源光網(wǎng)絡(luò)。(見下圖)

  “切換發(fā)生在網(wǎng)絡(luò)邊緣,核心完全是無源的;它僅由玻璃組成,”Verberk說。由此產(chǎn)生的網(wǎng)絡(luò)零數(shù)據(jù)包丟失且高度同步。消除電交換機(jī)減少了整體功耗和系統(tǒng)復(fù)雜性,同時提供直接的xPU到xPU高速連接。

  Prism架構(gòu)

  Oriole的首次發(fā)布是Prism架構(gòu),該架構(gòu)基于三個系統(tǒng)組件:

  1. 基于PCIe的800G網(wǎng)絡(luò)接口卡:集成ARM處理器的FPGA支持NVIDIA NCCL和AMD RCCL協(xié)議

  2. XTR可插拔模塊:集成收發(fā)與交換功能,采用可調(diào)諧激光器實(shí)現(xiàn)波長-空間-時間三維交換

  3. 無源光子路由器:基于陣列波導(dǎo)光柵(AWG),零功耗實(shí)現(xiàn)波長路由

  “你可以從GPU直接通過光學(xué)方式連接到另一個GPU,唯一發(fā)生的[光電]轉(zhuǎn)換是在每個GPU旁邊的網(wǎng)絡(luò)接口卡上,”Verberk說。

  基于PCIe的網(wǎng)絡(luò)接口卡使用800Gbps光通信技術(shù),并與標(biāo)準(zhǔn)軟件生態(tài)系統(tǒng)集成。該網(wǎng)卡圍繞一個包含ARM處理器的FPGA構(gòu)建,支持通過插件實(shí)現(xiàn)Nvidia的NCCL(Nvidia集合通信庫)和AMD的RCCL(Radeon開放計(jì)算集合通信庫)等協(xié)議,確保與現(xiàn)有AI軟件框架兼容。

  該網(wǎng)絡(luò)接口卡作為確定性數(shù)據(jù)傳輸設(shè)備,將用于AI計(jì)算的集合操作(例如消息傳遞接口操作如all-reduce、scatter-gather)映射到具有最小延遲的光路徑上。

  網(wǎng)卡的調(diào)度器將訓(xùn)練使用的確定性模式直接映射到波長和光纖上。同時,它根據(jù)工作負(fù)載需求動態(tài)重新配置,使用標(biāo)準(zhǔn)的直接內(nèi)存訪問(DMA)引擎進(jìn)行推理。

  XTR可插拔模塊是Prism交換能力的核心?!霸谝粋€可插拔外形尺寸單元中,我們實(shí)現(xiàn)了傳輸、接收和交換,”Zervas說。

  光子網(wǎng)絡(luò)結(jié)合了三種維度的交換:光波長、空間交換和時隙(時分復(fù)用)。所選波長顏色由快速可調(diào)激光器決定。

  XTR可插拔模塊內(nèi)的空間交換指的是所選光纖路徑?!澳阌幸皇饫w,你可以選擇要連接哪根光纖,”Regan說。

  時間方面指的是100納秒的時隙,即可調(diào)激光器調(diào)整到新波長所需的時間??傮w而言,快速改變顏色可用于將數(shù)據(jù)路由到特定節(jié)點(diǎn)。

  “調(diào)制通道可以決定你要連接哪個通信組或集群,光纖路徑可以決定你要連接的邏輯機(jī)架,而你攜帶的光的顏色則可以決定機(jī)架內(nèi)的節(jié)點(diǎn)ID,”Zervas說。

  光子路由器由無源陣列波導(dǎo)光柵組成,構(gòu)成了Prism的核心?!八鼈冎皇遣A?,這意味著它們是非熱的,”Regan說,強(qiáng)調(diào)了其可靠性和零功耗。這些N×N陣列波導(dǎo)光柵根據(jù)波長和光纖選擇路由光線,作用類似于棱鏡。

  “在一個端口,比如說輸入端口,我們有紅色光;如果是紅色,它會到達(dá)第一個輸出端,如果是藍(lán)色,到第二個,如果是紫色,到第三個,等等,”Zervas說。

  多層堆疊的多個陣列波導(dǎo)光柵機(jī)架可以處理大規(guī)模集群,保持單一光跳以維持一致的信噪比和插入損耗。

  “每個節(jié)點(diǎn)與其他每個節(jié)點(diǎn)僅通過一次此過程,確保數(shù)千個GPU之間的一致性能,”Zervas說。

  Prism的功率與計(jì)算效率

  以一個包含8000個GPU的集群為例,Prism消除了128個葉交換機(jī)和64個脊交換機(jī),減少了60%的光收發(fā)器數(shù)量。對于超過16000個GPU的更大AI集群,通常需要第三層交換。這可減少77%的收發(fā)器數(shù)量。

  使用Prism不僅減少了光收發(fā)器的功耗,還通過去除電交換機(jī)及其相關(guān)冷卻需求降低了整體功耗。與以太網(wǎng)包交換不同,Prism的光電路保證無排隊(duì)的數(shù)據(jù)傳輸,每100納秒重新配置一次,與數(shù)據(jù)包持續(xù)時間匹配。

  在訓(xùn)練方面,Prism將通信開銷降低至1%以下。而在現(xiàn)有網(wǎng)絡(luò)中,這一數(shù)值通常為百分之幾十。這意味著GPU很少等待數(shù)據(jù),而是將時間用于處理任務(wù)。

  市場與部署策略

  Oriole的目標(biāo)市場包括三類:金融交易企業(yè)、汽車制造商等HPC用戶、交換機(jī)廠商以及超大規(guī)模服務(wù)商。

  “我們的潛在客戶群要廣泛得多,”Regan指出,這與專注于特定芯片廠商和超大規(guī)模服務(wù)商的芯片級光I/O廠商形成對比。

  Prism還包括一個以太網(wǎng)網(wǎng)關(guān),允許其與現(xiàn)有數(shù)據(jù)中心集成,避免完全替換原有系統(tǒng)?!澳憧梢栽跀?shù)據(jù)中心中需要的地方使用它,或者在新建部分使用它,”Regan說。

  Oriole的路線圖包括今夏的實(shí)驗(yàn)室演示、2026年初的Alpha硬件、2026年底的可部署產(chǎn)品以及2027年的量產(chǎn)爬坡。制造外包給高產(chǎn)量合同制造商。

  挑戰(zhàn)與展望

  說服超大規(guī)模服務(wù)商采用非標(biāo)準(zhǔn)軟件棧仍是一個障礙?!斑@需要合作,”Zervas指出,超大規(guī)模服務(wù)商使用專有協(xié)議。

  Oriole的全棧方法——涵蓋從Nvidia的CUDA庫到光子電路——使其與眾不同。

  “你很少能遇到一家公司在[光子學(xué)和計(jì)算]兩個領(lǐng)域都擁有深厚專業(yè)知識,”Regan說,這與只專注于光子學(xué)或計(jì)算的競爭對手形成鮮明對比。

  “我們正在打造一些東西,”Regan說?!拔覀冋诖蛟煲粋€面向未來的歐洲主要網(wǎng)絡(luò)公司,服務(wù)于AI和任意工作負(fù)載?!?

  原文:https://www.gazettabyte.com/home/2025/5/21/orioles-fast-optical-reconfigurable-network.html 

內(nèi)容來自:訊石光通訊網(wǎng)
本文地址:http://www.itwtalent.com//Site/CN/News/2025/05/26/20250526023618679868.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:Gazettabyte:Oriole的快速光重構(gòu)網(wǎng)絡(luò)
1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品,版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址,若作品內(nèi)容、版權(quán)爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right

相關(guān)新聞

暫無相關(guān)新聞