隨著“互聯網+”、5G、4K、VR等新業務和新技術的蓬勃發展,新興網絡服務對基礎光網絡提出了更高的要求,光網絡規模不斷擴大,網絡結構更加復雜,網絡復雜度呈指數級增長,導致運維成本成倍增長。人工智能技術(AI)的蓬勃發展為解決上述問題帶來了新的機遇,利用AI強大的數據分析和信息提取能力,通過對海量網絡數據采集、分析、預測、決策,為診斷網絡質量、優化業務性能、減輕運營負擔、改善用戶體驗等帶來無限可能。
光網絡AI應用場景分析
光網絡引入AI的驅動力
引入AI可以有效解決網絡運維中預測預防類、復雜類、重復性等工作帶來的成本和效率上的問題,主要體現在以下3個方面。
一是預評估。實現對光網絡故障/風險進行提前預測和提示,提升故障/風險閉環處理效率;對全網容量增長進行預測,指導網絡擴容建設預算評估;精準預測網絡流量變化并及時對網絡資源進行擴容和縮容,提升網絡穩定性和用戶體驗,節省運營商成本。
二是智管控。構建智能處理建議能力,嵌入維護流程或系統中,提升故障處理效率;具備啞資源空閑纖芯質量監控能力,實現全量纖芯質量可視,突破啞資源數字化管理。
三是優網絡。對海量告警信息進行統計分析與建模學習,快速、準確過濾關聯告警,定位根因告警,提升告警事件處理的效率;智能調測優化網絡,波長發放自動調測,光性能實時監控、實時調優,免人工調測;頻譜/路由等網絡資源自動優化,提升網絡資源利用率。
AI分析類場景分析
將主備業務或關聯業務部署到同一條光纜上并不鮮見,如果單條光纜中斷后主備業務或關聯業務同時失效,不僅會導致業務中斷,還會使部分網絡成為“孤島”。隨著網絡不斷變更和演進,人工巡線、人工錄入維護方式不能夠精準識別同纜,效率和識別準確度較低,引入AI技術可以智能識別主備業務、關聯業務是否存在同纜風險,保障網絡高可靠運行。
網絡規劃與業務發展不同步,可能造成網絡負載不均、資源利用效率低下、資源需求高低不均,根因是網絡拓撲已經無法匹配業務流量流向變化。對此,可以基于業務精準預測反向優化網絡拓撲,通過適量加纖、加纜、加點,實現網絡承載能力倍增,適應業務變化和發展需要。
秒級、毫秒級甚至微秒級業務閃斷發生頻次高,但持續時間短、無告警上報,且人工定位和回溯困難,故障很難復現,基本依據用戶投訴解決問題,嚴重影響客戶感知和運營商口碑。同時,網絡“卡、慢、斷”導致用戶體驗差與應用、帶寬、連接多個維度緊密相關,根因定位定界涉及大量網絡數據,人工分析效率很低,大多數用戶業務體驗問題難以根治。迫切需要引入AI技術,提升光網絡瞬態變化感知精度,實現性能瞬變監測和閃斷智能定位定界,實現用戶體驗差根因的高效定位定界。
AI預測類場景分析
隨著專線業務的快速發展,業務發放效率成為運營商的核心競爭力,而傳統資源規劃很難適應專線的隨機性和突發性,當前運營商對網絡投資的收緊加大了資源精準預留、業務快速發放的難度。引入AI智能資源預測,結合歷史業務增長趨勢,實現資源高效利用、業務發放“零”等待。
光網絡的性能劣化、隱患變故障是漸進式發展的,基于閾值的人工判斷方式難以識別,故障一旦發生,經常面臨大量業務中斷、修復周期過長等挑戰。隨著光網絡承載的業務流量增長,維護壓力與日俱增,迫切需要引入AI智能識別網絡健康、提前預測風險。
隨著數字經濟的發展,光網絡上波長增加明顯提速,同時為了增加網絡可靠性引入智能路由調整,使得網絡中頻繁加掉波,從而對現有波長性能產生影響,而當前人工方式存在工作量大、效率低、精度差等問題。引入AI智能余量預測,可以自動對波長余量進行動態仿真,精準模擬加掉波對現有波長的性能余量變化和劣化根因分析,為精準調測提供保障。
AI優化類場景分析
省際骨干傳送網與省內骨干傳送網融合、省內骨干傳送網與城域網一體化將導致網絡規模不斷擴展,使路由選擇過多,從而加大業務選路變數。因此,光模擬網絡面臨手工調測效率低、出錯概率高、效果不可控等問題。而引入AI智能優化調測步驟,再結合自動性能檢測,可以實時監控關聯路徑的性能,保障網絡處于穩定、較優狀態。
為適應動態的業務變化、保障網絡性能指標時刻處于最優并發掘網絡利用潛能,需要對波長、鏈路和路由實施動態優化。以往各類傳輸優化工具或軟件主要借助固化的方法和簡單的規則,甚至依賴工程師的經驗完成優化,并未識別到本質特征、考慮維度簡單、相關性分析不足、局部而非全局,因此優化的結果往往不是普遍有效。如今隨著網絡規模和業務規模的不斷擴大,傳統優化方式難堪重任,需要引入人工智能以完成整個傳輸網生命周期內的精細化、動態化、智能化的優化。
光網絡AI關鍵實現技術
光網絡AI應用解決方案架構
AI應用解決方案架構可以為光網絡提供啞資源管理、智能規劃、智能運營、智能維護和智能優化等AI應用,實現光網絡全生命周期自動化、智能化運維,支撐政企專線、數據中心、家寬、算力網絡等各類業務高品質發展。具體實現載體包括底層網元設備和上層管控系統,整體架構如圖1所示。
圖1 光網絡AI應用解決方案架構
管控系統可以對光網絡進行數字孿生,基于網絡級意圖管理集成網絡級AI引擎,進行智能分析預測、仿真和決策控制,實現自動化閉環處理。
網元設備能夠基于光Sensor體系對光參數據進行全面、精準、實時感知和采集,使用網元級內生AI對高性能數據分析、處理和壓縮,實現網元級分析預測、智能決策,上報全量光參,精準計算噪聲、代價和余量等,與管控系統網絡級AI進行功能互補。
融合感知技術
面對高復雜度的多參量光網絡系統,為了能夠全面、精準、實時感知光網絡狀態,網元系統和管控系統需要從維度、精度、頻度等多個角度進行光Sensor數據的分層采集和匯聚,并通過AI算法對原始光Sensor數據進行數據挖掘,支撐光網絡的各類業務場景。
對于管控系統需要具備數據匯聚和數據挖掘處理能力。數據匯聚是指管控系統需要將采集的數據進行分類匯聚,可分為資源數據底座和性能數據底座。資源數據底座匯聚的數據主要是靜態的存量數據,比如業務存量、網絡拓撲存量數據等。匯聚的資源和性能原始數據表達的信息量始終是有限的,因此管控系統需要基于AI算法技術對光Sensor數據進行數據挖掘以獲得額外的信息量,用于支撐感知、診斷、預測、控制等多類業務場景。
光Sensor技術是以光技術手段感知、檢測多種物理量,并將模擬物理量數字化的一種技術。面對高復雜度的多參量光網絡系統,為了能夠全面、精準、實時感知光網絡狀態,網元系統和管控系統需要從維度、精度、頻度等多個角度進行光Sensor數據的分層采集和匯聚,并通過AI算法對原始光Sensor數據進行數據挖掘,支撐光網絡的各類業務場景。網元系統利用光Sensor技術對各個層面的數據進行逐層采集:光業務層、光器件層、光信道層、光鏈路層。光業務層數據主要是客戶關注的業務屬性指標,比如帶寬、時延、誤碼、保護倒換時長等指標;光器件層數據主要是采集光器件的物理指標,包括功率、溫度、電壓、頻偏等;光信道層數據關注點在于信道的屬性特征,類似信道編號、光信噪比、單波功率等;光鏈路層數據集中在鏈路側的特征,包含光纖損耗、光纖類型、光纖事件等。
網絡時延是一項重要的網絡性能指標,對業務流量吞吐、業務感知有直接影響,精準捕捉影響網絡性能和業務體驗的時延變化,感知時延并定界定位時延變化根因,對自動優化時延、保障業務體驗至關重要。感知時延能力不僅要支持已開通業務電路的時延可檢可測,還要能在任意潛在源宿開通電路之前準確預估時延,并在業務電路時延出現變化時,能及時捕捉到時延變化根因,比如業務電路保護倒換導致的線路時延變化,并能準確檢測到業務時延變化值。通過AI算法提前獲取業務影響時長是評估業務體驗、提升網絡質量、改進運維手段的重要指標。
面臨光Sensor產生的海量數據,數據流轉技術建立了網元設備內和網元設備與管控系統間的高速傳輸通道,實施網元設備分布式本地決策和管控系統集中式智能控制兩層處理,協同完成決策,如圖2所示。
圖2 高性能數據流轉架構示意
網元設備按照數據采集量的大小和時間精度分為高速采集和低速采集。硬件上,在網元設備為關鍵Sensor開辟快速外送數據到硬件通道,使用高速緩存區存儲多端口高精度數據(如毫秒級);軟件上,構建統一大采集數據框架,抽象建模光Sensor數據采集項,靈活控制多單板、多端口的數據并發采集,并使用內存共享技術高效讀寫。
云地協同全棧AI技術
光網絡AI技術研究面對模型泛化能力差、模型部署要求算力高、本地樣本少/標注難、大數據管理困難等問題,需要探索一種新的AI技術架構應對這些問題,加速AI應用的規模部署。AI模型應具有在線學習能力,能夠不斷學習網絡新特征、新變化,AI模型訓練應集中部署在算力中心或者支持分布式訓練部署。針對光網絡多邊緣設備+中心控制的組網特點,云地協同AI技術架構是解決上述挑戰的最佳解決方案。
云地協同是指云端和地端協作完成數據樣本上云、模型狀態管理、模型重訓練、模型/知識下發、 擇優更新等一系列閉環任務,同時把云端匯集的全局網絡知識經驗、全量數據訓練得到的高精度模型,持續注入地端,讓光網絡AI能夠進行智能迭代升級,變得越來越聰明,如圖3所示。
圖3 云地協同全棧AI示意
AI服務包含數據治理服務、模型訓練服務、專家經驗輔助服務,涉及運營商大量運營數據、用戶數據、網絡數據,對數據安全要求很高,云端適合部署在IT云。實時海量數據并發上報、處理加劇整網壓力,在地端(包含管控系統、網元設備)部署分布式AI,就近處理本地實時海量數據。
智能分析預測技術
網絡出現問題后生成告警,進而觸發故障定位和修復是當前網絡運維的普遍方式。海量告警上報導致故障根因定位困難、靜默故障無告警上報導致無法定位故障根因,是根因告警分析的兩大難題。
由于網絡數據量大、維度多和故障模式多樣化,且關聯影響發散,需要精準的篩查和多維度關聯分析能力,通過智能分析技術,構建關聯模型并進行相關訓練,實現根因告警識別和靜默故障定位。智能資源預測和故障風險預測可提前發現資源瓶頸和故障風險,提升業務TTM(最近十二個月市盈率)和業務可靠性。
光網絡智能分析預測能力需在網元和管控層面分別構筑對應的智能分析能力。通過分層實現智能AI分析預測能力,基于高精度數據的短周期預測,需在網元進行高速數據采集處理和分析預測閉環,提升分析效率;基于數據粒度較大的長周期預測,可通過管控系統長周期數據采集和分析預測閉環。智能預測一般采用時間序列模型+訓練學習方式實現。光網絡常見時間序列模型包括差分回歸移動平均模型(ARIMA)和PROPHET模型,前者根據網絡實際資源進行預測,例如根據網絡當前新增鏈路來預測未來某一段時間內的鏈路增量;后者可以在一定數據缺失的情況下,仍能保持較好的預測效果,如光傳輸性能余量預測適用于該方法。
智能仿真決策技術
光網絡仿真能夠為網絡規劃、設計、配置以及網絡自優化(如網絡路徑優化、網絡資源性能優化等)提供可靠依據,通過對配置和優化結果下發前進行事前仿真決策,確保配置和優化結果的自動、準確、可信任執行,保障業務安全。網絡仿真能夠有效地驗證實際方案或比較多個不同的仿真設計以及組織方案,以便于對不同的設計方案建立模型,實施模擬,對網絡性能預測數據采取定量獲取,為設計、配置方案的比較和驗證提供可靠的依據。
網絡仿真決策技術是一種利用數學建模和統計分析的方法模擬網絡決策行為,通過建立網絡信息的統計模型,模擬網絡操作執行,獲取網絡設計及優化所需要的網絡性能數據的技術。網絡仿真分為3個階段:準備階段、模型設計、仿真與結果分析。
在仿真的基礎準備階段,構建全光參量數字孿生底座,通過Sensor體系實現上報全量光參、在線學習,精準計算噪聲、代價、余量等,支撐對網元實時狀態的全量認知;在仿真的模型設計階段,除了對網元、單板、端口、濾波器等基礎建模外,通過離線和在線大數據學習,對光傳輸質量進行在線建模;在仿真與結果分析階段,通過AI遷移學習算法、回歸算法等實現余量動態監控以及自優化執行結果分析,做到自動調整優化方案以及實時自調優。
光網絡AI應用案例
目前,AI技術在光傳送網絡中已經開始各種應用探索。
應用一:同纜風險智能識別
為排除主備業務物理同纜風險,基于光纖的瑞利散射、受激拉曼散射、偏振狀態等光學效應產生機制,通過對光纖信息、站點地理信息、光性能信息、環境信息等數據進行分析,提取光纖指紋特征,采用多模態機器學習智能算法識別同纜概率,實現了同纜風險自動識別。
應用二:光網絡健康預測和可視
為實現對光網絡健康預測與可視,基于秒級數據采集,對數據進行清洗、標定和特征提取,采用AI算法對光纖進行多維度健康預測和劣化預警,分析光纖和波道健康度,并根據光性能變化趨勢,提前預測劣化類故障風險,以及自動定位和定界光纖故障、自動分析割接質量。
應用三:網絡故障根因分析
首先對歷史告警以及告警相關聯數據進行特征提取、清洗與聚合等處理,根據處理后的數據,通過機器學習等智能化算法的訓練推理,獲得告警間的關聯及衍生關系、關聯告警與根因故障的映射關系,進而生成RCA(Root Cause Analysis根因分析)規則、積累形成規則庫。在告警監控中,通過展開告警關系樹,可以明確地獲悉告警間的關聯、衍生關系,并通過RCA規則庫獲得關聯告警所映射的故障根因。
光網絡架構體系處于數智化轉型升級的關鍵階段,AI在光網絡中的應用有廣闊空間可以挖掘。近期需要深化融合感知和智能分析、預測類技術研究,提升啞資源感知能力,推進光網絡全參量感知、光纜和資源規劃預測、故障智能定界定位及風險預測技術的成熟。遠期需要突破光網絡智能仿真決策技術,增強AI模型泛化能力,將AI優化類場景應用擴展至光網絡業務配置優化、資源優化、性能優化等場景。
作者:中國移動研究院 李允博 葛大偉 孫將 趙陽、中國移動通信集團有限公司網絡事業部 郝斌、中國移動通信集團北京有限公司 車輪奔、中國移動通信集團浙江有限公司 王曉義