ICC訊 2023年9月7日,厚積薄發的混元大模型在騰訊全球數字生態大會正式亮相,并通過騰訊云對外開放?;煸竽P妥鳛楹诵囊?,已經支持了公司內部包括騰訊會議、騰訊文檔、騰訊廣告等50多個應用,騰訊也在“AI年”進入了“全面擁抱大模型”時代。如果說AI賦予了行業新的機遇,那么AI的算力底座則賦予AI本身新的極限,對此騰訊TEG網絡平臺部也在同期舉行的第24屆CIOE國際光電博覽會上,正式發布并展覽了新一代自研網絡產品,包含51.2T交換機、400G互聯光模塊、以及第二代開放光設備,引來行業伙伴高度關注。
圖1 CIOE騰訊云展臺人流涌動
自研數據中心高性能網絡——新一代 AI 網絡基座
騰訊開放網絡系統(Tencent Open Networking System)是騰訊網絡平臺部定義和推動開發的,致力于打造高可控、高質量、低成本的交換機產品平臺,隨著GPT4的問世,AI大模型訓練需要在上萬張GPU之間進行海量數據交換,也對網絡設備提出了更高的要求。對此在本次展會中,TONS發布了適配AI新時代的兩款最新產品:128端口400G交換機和400G BR4光模塊,賦予新一代騰訊AI大模型網絡更大的接入帶寬、更大的規模組網以及更低的轉發延時,為AI算力鑄造高速、平穩的極致賽道。
1、51.2T交換機
騰訊全新一代自研交換機TCS9500,交換容量 51.2T,支持128端口400G(QSFP112),兩極組網即可實現 8K GPU 集群全互聯。在結構設計方面,結合框式產品可插拔易維護的特點,在采用固定業務口方案的同時,將控制系統做成一張獨立的插卡,位于設備前面板,故障時可以很方便的進行更換,提高了產品維護效率,降低現網故障對 AI 模型訓練時間的影響。在散熱設計方面,產品支持風冷、冷板式液冷兩種散熱模式,可根據GPU服務器散熱需求,選擇對應產品配置,最大限度降低PUE。在SI設計方面,嚴格約束損耗、串擾、阻抗的關鍵指標,充分結合仿真與測試結果,系統級優化高速鏈路,最終實現整機無PHY芯片的同時,全部端口可以支持線性直驅光模塊的應用。
圖2 TCS9500交換機現場展示
2、400G BR4 LPO光模塊
針對AI大模型網絡需求,結合騰訊數據中心場景特點,我們推出400 BR4光模塊。400G BR4光模塊采用QSFP112封裝形式,四通道并行收發信號,單通道速率達112Gbps,傳輸距離200m,整體功耗小于8W。
圖3 400G BR4光模塊
400G BR4光模塊旨在實現Building Reach,覆蓋騰訊數據中心樓棟內全部光互聯場景。其關鍵設計如下:
1.平衡收發設計、降低Link Budget。針對DR規格光模塊發射端性能要求高,而接收端性能余量較大這一現狀,400G BR4對兩者進行了平衡設計,降低發射端OMA-TDECQ要求,使得發射端設計更加簡單、產品良率更高。
2.優化調制器設計,硅光芯片面積降低40%。在優化調制器設計的同時,降低BR4規格的ER要求,在調制器損耗基本保持不增加的情況下,調制器長度下降30%,同時實現“一拖四”設計,硅光芯片整體面積下降40%。
3.模塊內部“標準化”,功能塊設計。多芯片方案并行開發可以有效降低供應風險,但是會導致開發成本大幅提升,模塊內部“標準化”是可能的解決辦法。通過將模塊內部主要功能進行分塊,功能塊之間的接口標準化,可以降低多芯片方案的開發成本,加快開發速度。
4.線性直驅,節能降本。線性直驅光模塊(Liner-drive pluggable Optics,LPO)通過去除常規解決方案中的oDSP芯片,模塊功耗下降~50%,時延降低40~50ns,成本顯著降低,同時,還保留了傳統光模塊熱可插拔的特性,運維方便。LPO 模塊在數據中心短距離互聯場景有很好的應用前景。但是,無DSP設計降低了光模塊抗損傷的能力,為了保證誤碼率優于規范門限,需要從全鏈路的角度去系統優化設計,交換機和光模塊聯合調優配置參數,更好地發揮各自能力,提升鏈路的傳輸性能。
與TCS9500對接測試結果顯示,使用光纖自環,遍歷全部端口的 BER 數據如下圖,Pre FEC BER 均小于1e-08。
圖4 400G BR4 BER測試
線性直驅的另一種解決方案是CPO,Co-Packaged Optics。CPO方案將光學器件與交換機芯片封裝在一起,大幅度降低高速信號的損耗,整機功耗相對上一代交換機降低了~23%;整機高度由4U降低為2U,為機架預留了更多的空間;接口為高密度800G,可插拔接口由56G SerDes 200G接口升級為112G SerDes 400G,高密的高速端口節省上架時間~60%。
通過端到端的細致優化,其各項性能均超出規范標準。
圖5 CPO交換機性能測試
同時,對CPO光引擎性能進行了性能測試,TDECQ均值約為2.2dB,ER優于4dB,性能滿足DR4 MSA要求。全端口長時間串聯測試結果零誤碼。
自研開放光網絡——連通數據中心的高速公路
騰訊開放光網絡平臺(Tencent Open Optical Platform)是網絡平臺部定義和推動開發的,致力于打造適配數據中心互聯場景的低成本、大帶寬、高可靠的傳送網絡系統。開放光網絡平臺于2018年啟動,秉承著用互聯網思維打造開放的光網絡產品的目標,產品分階段實現了光電解耦、相干模塊解耦的目標,并在2020光博會發布了開放光網絡第一代自研產品OPC-4。騰訊傳送網絡團隊一直致力于提升開放光網絡平臺的能力,基于新的傳送網絡技術對產品進行打磨和突破。三年磨一劍,在2023光博會上,開放光網絡平臺的第二代自研產品OPC-8揭開了神秘的面紗。
圖6 開放光系統現場展示
(左側為第一代平臺OPC-4,右側為新平臺OPC-8)
OPC-8作為開放光網絡的新一代平臺系統,繼承了TOOP至簡高效的設計理念,平臺依然采用光電混合設計,應用于電層平臺可接入8塊1.2T單載波速率單板實現9.6T帶寬接入,客戶側可靈活支持100/200/400GE業務接入。光層平臺升級支持C+L,在2U單子框內可支持一個OTM站全部光學功能部署,結合1.2T單板可實現單纖76.8T傳送能力。平臺支持SNCP、OCHP、OMSP多種保護模式,滿足數據中心應用場景的各種組網需求。
圖7 1.2T單載波速率單板T1X12C8
開放光網絡系統新一代平臺OPC-8,傳承了為波分產品做減法的理念,采用優質組件、高性能器件和嚴謹的加工工藝實現了在系統成本優化的同時保證了苛刻的質量要求。TOOP系列產品全面通過CE、GR63等質量認證,從而打造了安全可靠,簡單易用的物理層產品,持續的將“less is more”的理念付諸于行動。
總結
“智變加速、產業煥新”,AI對產業的影響是現象級的,而騰訊在基礎技術底座上的探索、實踐與創新更是持續不斷的。作為地基,騰訊自研硬件賦予了當下技術新的應用與發展。未來,相信會有更強勁、更多元化的騰訊自研硬件會在CIOE這個國際舞臺上大放異彩。