ICCSZ訊 7月20日,華為在O'Reilly Open Source Convention (OSCON) 上宣布Spark SQL on HBase package正式開源。Spark SQL on HBase package項目又名 Astro,端到端整合了Spark, Spark SQL和HBase的能力,有助于推動幫助Spark進入NoSQL的廣泛客戶群,并提供強大的在線查詢和分析以及在垂直企業大規模數據處理能力。
華為已經把Spark嵌入到其大數據解決方案 —— FusionInsight,在世界上最大的銀行中國工商銀行以及最大的通信服務提供商中國移動得到了應用。華為還將Spark作為云服務,計劃在今年晚些時候隨華為公有云發布。
2014年8月25號,華為團隊與Spark專家在伯克利的辦公室就Spark SQL On HBase設計進行交流
Astro的新特性使得數據修改,智能掃描系統具有強大的可操作性,類似于自定義過濾器和協處理器下推式,并讓更多的傳統RDBS能力可用,其查詢優化算法適用于一般組織的數據集,并可以通過分布式SQL引擎進行查詢。為了充分利用Spark最新的功能,包括Dataframe和外部數據源API ,華為全球團隊一直持續更新項目代碼并符合最新發布的Spark1.4版本。此項目吸引了眾多社區貢獻者參與到開發和驗證中來。此外,華為團隊還對Spark SQL,機器學習和Spark R貢獻了很多新特性,豐富了Spark的標準庫。
“從作為OPNFV創始成員推動公司的核心業務網絡的開放,到云計算和物聯網等新業務,開源已經成為華為公司層面的戰略,比如我們將世界上最輕巧的物聯網操作系統LiteOS開源,在標準化和簡化基礎設施的同時,還可以提升物聯網的可連接能力。”華為中軟總裁王成錄說到。
王成錄表示:“Spark憑借其在數據處理和分析的卓越架構成為Apache社區最有影響力的項目,一直是華為公司重點和首要的關注。我們相信以Spark作為我們大數據解決方案的核心,一定會給客戶帶來顯著的優勢,推動生態圈的技術創新,同時最大程度優化IT投資,成就客戶。”
華為已在世界排名前5的移動運營商中國聯通運營子公司部署Spark,用于解決關鍵業務領域問題。該系統支持多個數據源條件下的近實時查詢和分析,允許分析員和數據科學家基于大規模數據更簡單有效的建立模型,對于某些特定場景,建模周期甚至能夠從幾個月縮減至幾周。另外,該系統基于Spark也成功的實現了用戶推薦和離網預測。華為和聯通正在攜手努力,把Spark應用延伸到新的業務領域。
而最近在南美最大的電信運營商之一的的成功商用,證明了相比傳統的BI系統和數據管理平臺,Spark和華為大數據解決方案能夠帶來更多的商業價值。運營商可以更迅速及時地獲取最新的、集中的客戶洞察,在試點的業務中實現更高的營銷轉化率,并能采用敏捷和快速的方式開發新的商業案例。數據分析人員不再需要進行MapReduce復雜編碼,機器學習的規模以及性能得到了極大的改善。
“我們很高興華為成為Spark的主要貢獻者。作為在新興市場和電信行業的領導者,華為一直在努力擴大Spark的影響力。” Databricks 的聯合創始人以及Spark的發布經理Patrick Wendell 這樣評價華為,“ 華為從Spark項目初期就一直是堅定的貢獻者。我們期望華為繼續發展Spark,并推動其在全球市場的垂直應用。”
Spark提供了一個強大的編程框架,豐富的API和庫,充滿活力的生態系統,以及無與倫比技術創新的步伐,因而在大數據領域飛速上升。
“華為的全球團隊在基于業務驅動的情況下,把新的算法加入到MLlib庫中,同時在與Databricks和社區共同探索在矢量化處理以及SQL核心模塊性能優化等工作的合作的可能性。”華為美國研發中心大數據帶頭人Bing Xiao說到, “我們已經看到社區對Astro的興趣,通過與其他廠商合作的方式去增強和推廣。此外,新興客戶對Spark SQL on OLAP cube有明顯的訴求,而我們正在評估社區的接受程度,以便于開源。華為堅定地致力于Spark,并在廣泛參與社區和行業建設。”