5月13日記者獲悉,網絡通信領域國際頂會SIGCOMM2024確定了收錄論文名單,中國企業表現亮眼,阿里云6篇論文入選,其中,介紹阿里云最新一代的智算集群網絡架構HPN 7.0的成果論文,成為SIGCOMM歷史上在AI智算集群網絡架構領域的首篇論文。據了解,SIGCOMM2024將于8月在悉尼線下召開會議。
大模型的火熱對AI基礎設施提出了更高要求,HPN7.0架構即面向AI時代對網絡高性能需求而研發。據介紹,HPN 7.0針對大模型訓練場景下規模大、大流多、突發強烈、穩定性需求高的特點,創新性地設計了“雙上聯+多軌+雙平面”的網絡架構,并配合最新一代的51.2Tbps單芯片以太網交換機和400G 高性能網卡,自研Solar-RDMA和ACCL通信庫,實現了單層千卡、兩層萬卡的高性能和高穩定互聯。
從2023年9 月開始,HPN7.0在阿里云展開大規模部署,大模型訓練性能較上一代架構在典型場景下提升14.9%,且大幅提高了智算網絡整體穩定性。前不久阿里云發布通義千問2.5版本大模型,就是基于HPN7.0高性能網絡架構訓練。通義千問2.5版本較2.1版本在理解能力、邏輯推理、指令遵循、代碼能力上分別提升9%、16%、19%、10%,中文性能全面趕超GPT-4Turbo。
阿里云基礎設施網絡負責人蔡德忠介紹稱:“阿里云從2017年開始探索端網融合的可預期網絡,HPN7.0更進一步,把端網融合的體系結構從網絡協議棧拓展到網絡架構和通信庫,實現了面向AI智算時代的全新網絡集群架構創新。”
網絡架構是網絡技術及系統的基石,重大創新如連城之璧般稀少。據了解,SIGCOMM此前關于傳統數據中心網絡的架構領域文章還是Google提出的Jupiter網絡,現已成為業界經典網絡架構范式。有專家指出,此次由阿里云提出的新一代網絡架構HPN7.0,有望成為下一代AI高性能網絡架構的新范式。
在SIGCOMM近50年的發展歷程中,來自中國大陸的論文僅50余篇,其中阿里累計入選25篇,是國內被收錄數量最多的科技公司。據了解,阿里云在高性能網絡領域已深耕多年,提出了端網融合的可預期網絡技術體系,并在業界率先實踐完成RDMA低延時網絡、智算集群網絡架構HPN 7.0等先進網絡技術的大規模實踐。阿里巴巴還曾獲評權威機構AMiner全球十大最具影響力的網絡研究機構。
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:1271141964@qq.com。