新的共封裝光學(CPO)技術創新,將有望取代數據中心內部的電氣互連,為人工智能(AI)及其他計算密集型應用帶來速度和能源效率方面的大幅提升。
近期,IBM宣布在光學技術領域取得了一項重大突破,該突破將深刻改變數據中心訓練和運行生成式AI模型的方式。IBM的研究團隊開發了一種全新的CPO工藝,這是下一代的光學連接技術,能夠通過光速在數據中心內部實現連接,與現有的短距離電線形成互補。
為了實現這一技術,IBM的研究人員成功設計和組裝了首個公開宣布的聚合物光波導(PWG)系統。這一成果展示了CPO如何重新定義計算行業在芯片、電路板及服務器間傳輸高帶寬數據的方式。
目前,光纖技術已在遠距離
數據傳輸方面展現出卓越性能,幾乎全球所有的商業和通信流量都依賴于光而非電進行管理。然而,在數據中心內部,機架間的通信仍主要依賴基于銅的電線。這些電線連接的GPU加速器在等待來自其他設備的數據時,可能有一半以上的時間處于閑置狀態,這不僅造成了高昂的費用,還消耗了大量能源。
IBM的研究團隊提出了一種將光學的速度和容量引入數據中心的新方法。在arXiv上發表的一篇論文中,IBM介紹了一種新的CPO原型模塊,該模塊能夠實現高速光連接。這一技術將顯著提升數據中心通信的帶寬,最大限度減少GPU的閑置時間,并極大加速AI處理過程。具體而言,這項創新將帶來以下變革:
與傳統電氣互連相比,能耗降低五倍以上,從而降低了擴展生成式AI的成本,同時使數據中心互連電纜的長度從1米延伸至數百米。
AI模型訓練速度大幅提升,開發人員能夠以傳統電線五倍的速度訓練大型語言模型(LLM),訓練時間從三個月縮短至三周。
數據中心能源效率顯著提高,每個AI模型所節省的能源相當于5000個美國家庭一年的用電量。
IBM高級副總裁兼研究總監Dario Gil表示:“隨著生成式AI對能量和處理能力的需求不斷增加,數據中心必須持續進化,而CPO技術正是推動數據中心迎接未來挑戰的關鍵。”
“這一突破意味著未來的芯片將像光纖電纜一樣,在數據中心內外以光速傳輸數據,開啟一個更快、更可持續的通信新時代,足以應對未來AI工作負載。”
此外,CPO技術提供的帶寬比現有的芯片間通信快80倍。隨著芯片技術的不斷進步,晶體管在芯片上的密度不斷增加,IBM的2納米節點芯片技術已能容納超過500億個晶體管。CPO技術旨在擴大加速器間的互連密度,使芯片制造商能夠在電子模塊上添加光通路,從而突破當前電通路的限制。
IBM的論文詳細描述了這些新的高帶寬密度光學結構,它們通過每個光通道傳輸多個波長,與電氣連接相比,能將芯片間的帶寬提高80倍。與目前最先進的CPO技術相比,IBM的創新使芯片制造商能夠在硅光子學芯片的邊緣添加六倍的光纖,即“海濱密度”。這些光纖的直徑大約是人類頭發的三倍,長度從幾厘米到幾百米不等,每秒能傳輸太比特的數據。IBM團隊使用標準的組裝封裝工藝,在50微米間距的光學通道上組裝了一個高密度PWG,與硅光子波導絕熱耦合。
論文還指出,這些具有50微米間距PWG的CPO模塊已通過了制造所需的所有壓力測試,包括高濕環境、-40°C至125°C的溫度以及機械耐久性測試,確保了光互連在彎曲時不會損壞或丟失數據。此外,研究人員已將PWG技術演示到18微米的間距,堆疊四個PWG可實現多達128個通道的連接。
這一突破延續了IBM在半導體創新領域的領先地位,包括首個2nm節點芯片技術、7nm和5nm工藝技術的實現、納米片晶體管、垂直晶體管(VTFET)、單細胞DRAM和化學放大光刻劑等。CPO技術為滿足AI日益增長的性能需求提供了新的解決方案,并有望取代模塊外的電氣通信方式。
IBM的研究人員在紐約奧爾巴尼完成了CPO的設計、建模和仿真工作,而原型組裝和模塊測試則在位于加拿大魁北克布羅蒙特的IBM工廠進行,該工廠是北美最大的芯片組裝和測試基地之一,幾十年來一直在芯片封裝領域處于世界領先地位。