Gazettabyte：Oriole的快速光重構(gòu)網(wǎng)絡(luò)

訊石光通訊網(wǎng) 發(fā)布時間:2025/5/26 10:26:15 編者:Nina

摘要：英國初創(chuàng)公司Oriole Networks推出全球首個全光網(wǎng)絡(luò)架構(gòu)PRISM，通過納秒級光交換技術(shù)徹底取代傳統(tǒng)電交換設(shè)備，解決AI計(jì)算中的網(wǎng)絡(luò)瓶頸。該方案可連接百萬級GPU集群，降低能耗40%以上，預(yù)計(jì)2027年實(shí)現(xiàn)量產(chǎn)。

ICC訊 Oriole Networks近日榮幸地接待了Gazettabyte的Roy Rubenstein到訪其倫敦辦公室。Roy與公司多位高管進(jìn)行了會面，深入了解了全球首個面向AI的全光網(wǎng)絡(luò)解決方案PRISM。作為他對OFC 2025行業(yè)觀察的一部分，Roy撰寫了一篇精彩的訪問報(bào)道——以下是該報(bào)道全文。

初創(chuàng)公司Oriole Networks開發(fā)出一種光子網(wǎng)絡(luò)，用于連接人工智能數(shù)據(jù)中心內(nèi)的眾多加速器芯片。這種快速光子網(wǎng)絡(luò)每100納秒可重構(gòu)一次，旨在取代多層電交換機(jī)。Oriole表示其光子網(wǎng)絡(luò)可顯著節(jié)省電力，并確保網(wǎng)絡(luò)不再成為計(jì)算瓶頸。

Oriole Networks CTO Georgios Zervas

在倫敦一間沐浴著春日陽光的辦公室里，來自O(shè)riole Networks的團(tuán)隊(duì)詳細(xì)闡述了他們對AI和高性能計(jì)算（HPC）數(shù)據(jù)中心的愿景。

Oriole開發(fā)了一種名為Prism的網(wǎng)絡(luò)解決方案，該方案使用快速可重構(gòu)的光路開關(guān)來替代數(shù)據(jù)中心中用于連接AI處理器機(jī)架的傳統(tǒng)電包交換機(jī)層級。

電交換機(jī)在數(shù)據(jù)中心中起著關(guān)鍵作用，使由數(shù)千個加速器芯片組成的AI計(jì)算機(jī)得以擴(kuò)展。這些芯片包括圖形處理器（GPU）、張量處理器（TPU）或更通用的xPU，它們被用來處理大型AI計(jì)算任務(wù)。這些任務(wù)包括將學(xué)習(xí)印刻到大型AI模型上，或者在AI模型訓(xùn)練完成后進(jìn)行推理，即在提示時分享知識。

Oriole的新網(wǎng)絡(luò)基于光路開關(guān)，能夠根據(jù)工作負(fù)載的變化迅速切換，按需分配xPU資源。雖然電交換機(jī)已經(jīng)能很好地做到這一點(diǎn)。

技術(shù)淵源

Oriole成立于2023年，建立在Georgios Zervas及其UCL研究團(tuán)隊(duì)十多年的研究成果之上。該公司已籌集了3500萬美元資金，其中包括由投資公司Plural的Ian Hogarth領(lǐng)投的2200萬美元A輪融資。Ian Hogarth是一名技術(shù)企業(yè)家，也是英國AI安全研究所的主席。

目前50人的團(tuán)隊(duì)分布在倫敦、佩恩頓和帕洛阿爾托三地，匯聚了包括Paignton前Lumentum相干收發(fā)器團(tuán)隊(duì)和西倫敦前英特爾Altera部門的光子學(xué)以及針對超大規(guī)模企業(yè)需求的可編程邏輯設(shè)計(jì)專家。

AI數(shù)據(jù)中心指標(biāo)

電力是限制AI數(shù)據(jù)中心生產(chǎn)力的關(guān)鍵因素之一。

Oriole副總裁Joost Verberk指出："數(shù)據(jù)中心的電力供給有限，系統(tǒng)和網(wǎng)絡(luò)必須盡可能高效，才能將電力集中供給GPU。"

Oriole提到了Nvidia的Jensen Huang在其最近GTC活動上使用的兩個指標(biāo)來量化AI數(shù)據(jù)中心的效率。一個是每兆瓦每秒生成的token數(shù)(tokens/s/MW)。Token是指數(shù)據(jù)元素，例如單詞的一部分或圖像像素條帶，這些會被輸入或由AI模型生成。生成的token越多，數(shù)據(jù)中心的生產(chǎn)力越高。第二個指標(biāo)是響應(yīng)速度，以每秒生成的token數(shù)(tokens/s)衡量，用于評估延遲（響應(yīng)速度）。

Oriole指出這兩個指標(biāo)并不總是同步的，但目標(biāo)是用更少的電力生產(chǎn)更多的token并更快地完成。

討論token意味著數(shù)據(jù)中心的硬件用于推理。然而，Oriole強(qiáng)調(diào)，減少訓(xùn)練AI模型所需電力也是一個目標(biāo)。Oriole的光網(wǎng)絡(luò)解決方案既可用于推理也可用于訓(xùn)練。

展望未來，只有少數(shù)幾家公司，如超大規(guī)模企業(yè)，會訓(xùn)練最大的AI模型。許多較小規(guī)模的AI集群將被部署并用于推理。

“到2030年，80%的AI將是推理。”O(jiān)riole首席執(zhí)行官James Regan說道。

網(wǎng)絡(luò)影響

推理本質(zhì)上意味著呈現(xiàn)的AI任務(wù)不斷變化。一個含義是，連接AI處理器的網(wǎng)絡(luò)必須是動態(tài)的：為特定任務(wù)抓取處理器并在任務(wù)完成后釋放它們。

Oriole首席技術(shù)官George Zervas指出，盡管Nvidia使用相同的GPU進(jìn)行訓(xùn)練和推理，但Google最新的TPU Ironwood具有推理增強(qiáng)功能。Google還擁有專用于推理工作的AI計(jì)算集群。與此同時，AWS則使用不同的加速器芯片分別進(jìn)行推理和訓(xùn)練。這兩種處理器的互連帶寬要求（輸入-輸出，或I/O）不同，推理處理器的要求較低。

對于訓(xùn)練來說，根據(jù)任務(wù)的并行化方式，處理器/xPUs之間的數(shù)據(jù)交換高度可預(yù)測?！澳憧梢詣?chuàng)建一系列短時存在的光學(xué)電路，以最小化集體通信時間，”Zervas說。然而，開關(guān)必須是確定性和同步的?！澳悴粦?yīng)該有[數(shù)據(jù)包]隊(duì)列，”他說。

推理過程可能訪問許多AI“專家混合”模型，因此需要一個更加動態(tài)的系統(tǒng)?！安煌膖oken將前往分布在xPUs上的不同專家集，”Zervas說。“有時，一些xPUs會對查詢進(jìn)行批處理然后一次性發(fā)送出去。”

結(jié)果是非確定性流量，這與傳統(tǒng)云數(shù)據(jù)中心的流量模式更為接近。在這里，網(wǎng)絡(luò)必須在幾百納秒內(nèi)快速重新配置。

“我們說的是，納米級速度的光路開關(guān)可以在任何電包交換機(jī)出現(xiàn)的地方發(fā)揮作用，”Zervas說。他強(qiáng)調(diào)即使在如此快的切換速度下，它仍然是一個電路交換機(jī)，因?yàn)閮牲c(diǎn)之間有保證的路徑。這不同于傳統(tǒng)電交換機(jī)中的“盡力而為”的流量，其中數(shù)據(jù)包可能會被丟棄。

“在我們的情況下，這個鏈接可以持續(xù)的時間就像一個數(shù)據(jù)包一樣短，”Zervas說?！拔覀兊拈_關(guān)可以在每100納秒重新配置一次?！?

一旦建立了鏈接，數(shù)據(jù)就會被發(fā)送到另一端而不遇到排隊(duì)問題?；蛘哒鏩ervas所說，這種切換匹配了數(shù)據(jù)包的粒度，但卻提供了只有電路才能保證的交付。

光學(xué)在數(shù)據(jù)中心網(wǎng)絡(luò)中的日益增長的角色

目前，諸如Infiniband或Ethernet等協(xié)議被用來連接xPU機(jī)架，通常被稱為橫向擴(kuò)展網(wǎng)絡(luò)。為了使xPU相互通信，通常使用包含多層電交換機(jī)的傳統(tǒng)Clos或“胖樹”架構(gòu)。

由于數(shù)據(jù)中心的距離跨度較大，插拔式收發(fā)器通過網(wǎng)絡(luò)接口卡將xPU連接到交換網(wǎng)絡(luò)，從而連接到目標(biāo)網(wǎng)絡(luò)接口卡和xPU。

博通(Broadcom)和英偉達(dá)(Nvidia)宣布推出將光學(xué)器件與硅交換機(jī)集成的電交換機(jī)，這是一個較新的發(fā)展方向。使用這種共封裝光學(xué)器件可以繞過在電交換機(jī)平臺前面板上安裝插拔式光收發(fā)器的需求。

谷歌(Google)也開發(fā)了自己的數(shù)據(jù)中心架構(gòu)，用光路開關(guān)代替頂層的大電交換機(jī)。在這種混合網(wǎng)絡(luò)中，電交換機(jī)仍然主導(dǎo)整個網(wǎng)絡(luò)。然而，使用光層可以節(jié)省成本和電力，并允許谷歌在移動工作負(fù)載時重新配置TPU機(jī)架之間的互連。不過，谷歌的光路開關(guān)的配置速度遠(yuǎn)不如Oriole的快，肯定不是納秒級別的。

通過其Prism架構(gòu)，Oriole采取了一個激進(jìn)的步驟，即替換所有的電交換機(jī)，而不是僅僅替換頂層。結(jié)果是一個平面無源光網(wǎng)絡(luò)。（見下圖）

“切換發(fā)生在網(wǎng)絡(luò)邊緣，核心完全是無源的；它僅由玻璃組成，”Verberk說。由此產(chǎn)生的網(wǎng)絡(luò)零數(shù)據(jù)包丟失且高度同步。消除電交換機(jī)減少了整體功耗和系統(tǒng)復(fù)雜性，同時提供直接的xPU到xPU高速連接。

Prism架構(gòu)

Oriole的首次發(fā)布是Prism架構(gòu)，該架構(gòu)基于三個系統(tǒng)組件：

1. 基于PCIe的800G網(wǎng)絡(luò)接口卡：集成ARM處理器的FPGA支持NVIDIA NCCL和AMD RCCL協(xié)議

2. XTR可插拔模塊：集成收發(fā)與交換功能，采用可調(diào)諧激光器實(shí)現(xiàn)波長-空間-時間三維交換

3. 無源光子路由器：基于陣列波導(dǎo)光柵（AWG），零功耗實(shí)現(xiàn)波長路由

“你可以從GPU直接通過光學(xué)方式連接到另一個GPU，唯一發(fā)生的[光電]轉(zhuǎn)換是在每個GPU旁邊的網(wǎng)絡(luò)接口卡上，”Verberk說。

基于PCIe的網(wǎng)絡(luò)接口卡使用800Gbps光通信技術(shù)，并與標(biāo)準(zhǔn)軟件生態(tài)系統(tǒng)集成。該網(wǎng)卡圍繞一個包含ARM處理器的FPGA構(gòu)建，支持通過插件實(shí)現(xiàn)Nvidia的NCCL（Nvidia集合通信庫）和AMD的RCCL（Radeon開放計(jì)算集合通信庫）等協(xié)議，確保與現(xiàn)有AI軟件框架兼容。

該網(wǎng)絡(luò)接口卡作為確定性數(shù)據(jù)傳輸設(shè)備，將用于AI計(jì)算的集合操作（例如消息傳遞接口操作如all-reduce、scatter-gather）映射到具有最小延遲的光路徑上。

網(wǎng)卡的調(diào)度器將訓(xùn)練使用的確定性模式直接映射到波長和光纖上。同時，它根據(jù)工作負(fù)載需求動態(tài)重新配置，使用標(biāo)準(zhǔn)的直接內(nèi)存訪問（DMA）引擎進(jìn)行推理。

XTR可插拔模塊是Prism交換能力的核心?！霸谝粋€可插拔外形尺寸單元中，我們實(shí)現(xiàn)了傳輸、接收和交換，”Zervas說。

光子網(wǎng)絡(luò)結(jié)合了三種維度的交換：光波長、空間交換和時隙（時分復(fù)用）。所選波長顏色由快速可調(diào)激光器決定。

XTR可插拔模塊內(nèi)的空間交換指的是所選光纖路徑?！澳阌幸皇饫w，你可以選擇要連接哪根光纖，”Regan說。

時間方面指的是100納秒的時隙，即可調(diào)激光器調(diào)整到新波長所需的時間?？傮w而言，快速改變顏色可用于將數(shù)據(jù)路由到特定節(jié)點(diǎn)。

“調(diào)制通道可以決定你要連接哪個通信組或集群，光纖路徑可以決定你要連接的邏輯機(jī)架，而你攜帶的光的顏色則可以決定機(jī)架內(nèi)的節(jié)點(diǎn)ID，”Zervas說。

光子路由器由無源陣列波導(dǎo)光柵組成，構(gòu)成了Prism的核心?！八鼈冎皇遣Ａ?，這意味著它們是非熱的，”Regan說，強(qiáng)調(diào)了其可靠性和零功耗。這些N×N陣列波導(dǎo)光柵根據(jù)波長和光纖選擇路由光線，作用類似于棱鏡。

“在一個端口，比如說輸入端口，我們有紅色光；如果是紅色，它會到達(dá)第一個輸出端，如果是藍(lán)色，到第二個，如果是紫色，到第三個，等等，”Zervas說。

多層堆疊的多個陣列波導(dǎo)光柵機(jī)架可以處理大規(guī)模集群，保持單一光跳以維持一致的信噪比和插入損耗。

“每個節(jié)點(diǎn)與其他每個節(jié)點(diǎn)僅通過一次此過程，確保數(shù)千個GPU之間的一致性能，”Zervas說。

Prism的功率與計(jì)算效率

以一個包含8000個GPU的集群為例，Prism消除了128個葉交換機(jī)和64個脊交換機(jī)，減少了60%的光收發(fā)器數(shù)量。對于超過16000個GPU的更大AI集群，通常需要第三層交換。這可減少77%的收發(fā)器數(shù)量。

使用Prism不僅減少了光收發(fā)器的功耗，還通過去除電交換機(jī)及其相關(guān)冷卻需求降低了整體功耗。與以太網(wǎng)包交換不同，Prism的光電路保證無排隊(duì)的數(shù)據(jù)傳輸，每100納秒重新配置一次，與數(shù)據(jù)包持續(xù)時間匹配。

在訓(xùn)練方面，Prism將通信開銷降低至1%以下。而在現(xiàn)有網(wǎng)絡(luò)中，這一數(shù)值通常為百分之幾十。這意味著GPU很少等待數(shù)據(jù)，而是將時間用于處理任務(wù)。

市場與部署策略

Oriole的目標(biāo)市場包括三類：金融交易企業(yè)、汽車制造商等HPC用戶、交換機(jī)廠商以及超大規(guī)模服務(wù)商。

“我們的潛在客戶群要廣泛得多，”Regan指出，這與專注于特定芯片廠商和超大規(guī)模服務(wù)商的芯片級光I/O廠商形成對比。

Prism還包括一個以太網(wǎng)網(wǎng)關(guān)，允許其與現(xiàn)有數(shù)據(jù)中心集成，避免完全替換原有系統(tǒng)?！澳憧梢栽跀?shù)據(jù)中心中需要的地方使用它，或者在新建部分使用它，”Regan說。

Oriole的路線圖包括今夏的實(shí)驗(yàn)室演示、2026年初的Alpha硬件、2026年底的可部署產(chǎn)品以及2027年的量產(chǎn)爬坡。制造外包給高產(chǎn)量合同制造商。

挑戰(zhàn)與展望

說服超大規(guī)模服務(wù)商采用非標(biāo)準(zhǔn)軟件棧仍是一個障礙?！斑@需要合作，”Zervas指出，超大規(guī)模服務(wù)商使用專有協(xié)議。

Oriole的全棧方法——涵蓋從Nvidia的CUDA庫到光子電路——使其與眾不同。

“你很少能遇到一家公司在[光子學(xué)和計(jì)算]兩個領(lǐng)域都擁有深厚專業(yè)知識，”Regan說，這與只專注于光子學(xué)或計(jì)算的競爭對手形成鮮明對比。

“我們正在打造一些東西，”Regan說?！拔覀冋诖蛟煲粋€面向未來的歐洲主要網(wǎng)絡(luò)公司，服務(wù)于AI和任意工作負(fù)載?！?

原文：https://www.gazettabyte.com/home/2025/5/21/orioles-fast-optical-reconfigurable-network.html

內(nèi)容來自：訊石光通訊網(wǎng)
本文地址：http://www.itwtalent.com//Site/CN/News/2025/05/26/20250526023618679868.htm 轉(zhuǎn)載請保留文章出處
關(guān)鍵字:
文章標(biāo)題:Gazettabyte：Oriole的快速光重構(gòu)網(wǎng)絡(luò)

1、凡本網(wǎng)注明“來源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來源。
2、免責(zé)聲明，凡本網(wǎng)注明“來源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭議和其它問題，請聯(lián)系本網(wǎng)，將第一時間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

Gazettabyte：Oriole的快速光重構(gòu)網(wǎng)絡(luò)

相關(guān)新聞