英特爾BigDL,助力大數據AI從筆記本到云實現無縫擴展
作為快速增長的計算工作負載,人工智能(AI)也是英特爾認為將對世界產生變革性影響的超級技術力量之一。然而,數據顯示,有超過一半的AI和數據科學項目無法真正部署到現實應用中,均以失敗告終。海量數據、無法完全兼容的設備加之各異的數據環(huán)境,無疑為AI的應用和落地設置了重重關卡。
本文引用地址:http://m.butianyuan.cn/article/202209/438705.htm基于此,秉承推動AI無處不在的美好愿景,英特爾全面打造基于大數據AI開源項目BigDL,旨在助力從筆記本到云,無縫擴展大數據 AI。日前,英特爾院士、英特爾大數據技術全球首席技術官戴金權應邀出席 China Apache Hadoop Meetup 2022,并在會上深入解析英特爾如何從如下三個領域著手,創(chuàng)新BigDL,助力開源發(fā)展。
打造高可擴展性
對數據科學家和開發(fā)者而言,高可擴展性不僅意味著如何能高效、快速地構建出端到端的分布式數據和AI的流水線,也同樣需要注重基礎架構部署。與理論不同,實踐中的科學家們更關注如何將AI技術應用部署到實際場景,其中包括建模、訓練、推理和對模型的優(yōu)化等全流程,這意味著需要考慮端到端的流水線?;诖?,英特爾在底層就開始進行數據切分、模型復制、參數同步等工作,讓數據科學家們能夠有統一的體驗,同時,英特爾亦將大規(guī)模分布式的工作透明化、抽象化,讓數據科學家們能夠高效開發(fā)AI流水線。而對于基礎架構,英特爾亦通過類似BigDL的項目,為用戶提供統一的大數據AI集群/基礎架構。在同一個集群、流水線、工作程序當中,對這些大數據系統進行數據訪問、分布式處理,在同一個流水線里以內存計算的形式進行大規(guī)模分布式數據分割,再由這些深度學習、機器學習的系統對其進一步分析。
提升每個節(jié)點的性能效率
每當提及AI性能時,大多數人的第一反應是GPU或AI芯片,然而軟件優(yōu)化能夠帶來的AI性能提升卻極易被忽視。英特爾通過軟件層面優(yōu)化,如TensorFlow、PyTorch、MXNet等,可以帶來幾十倍、上百倍的性能提升,能夠更加高效地集成這些軟件。因此,可以認為構建一個免費的AI軟件加速器,在筆記本、CPU集群上都能夠帶來性能上的極大提升。而且,現如今有大量的現代化CPU加速技術,如內存分配、指令集等,將這些技術整合在AI流水線中,也能夠大大提升AI性能。值得注意的是,英特爾不僅通過軟件大幅提升每個節(jié)點性能,亦能實現集成過程的透明性,使數據科學家的實操更加便捷。
構建安全可靠的數據處理環(huán)境
將AI應用從筆記本擴展到諸如云環(huán)境中時,安全也是數據科學家非常關注的另一大問題。對當下大部分應用場景而言,隱私保護機器學習與大數據分析是運行在云中非常重要的需求。這個安全保障不僅囊括了如同態(tài)加密、遠程驗證等軟件方面的安全保障,也需要類似可信執(zhí)行環(huán)境等硬件安全保障,如英特爾? SGX技術具備持續(xù)增強的安全能力,可在內存等硬件中構建一個安全“飛地”,幫助保護代碼和數據,防止數據在處理期間遭受惡意軟件攻擊和權限提升型攻擊。因此,基于英特爾? SGX技術打造的BigDL PPML,能夠讓用戶即使沒有處于極度信任的公有或私有云中也仍然可以進行非常安全的數據分析和AI應用。
得益于高擴展性、性能提升和安全可靠的特性,BigDL能夠通過端到端大數據人工智能管道,降低AI的準入門檻,不僅能夠讓數據科學家、工程師等更便捷、簡易地構建大規(guī)模分布式人工智能解決方案,從而加速AI應用和部署,亦有助于挖掘更多AI潛力,為各行業(yè)發(fā)展注入新動能。
評論