隨著深度學習、CAE仿真、大數據分析、動畫渲染、圖像分析、高性能計算的快速發展和個性化服務的不斷演進,大型互聯網公司在服務用戶過程中積累了海量數據。此外,數據的頻繁跨境、跨系統、跨生態圈交互已成為常態,加劇了隱私信息在不同信息系統中有意、無意留存,但隨之而來的隱私信息保護短板效應、隱私侵犯追蹤溯源難等問題越來越嚴重,致使現有的隱私保護方案不能提供體系化的保護。
12月21日,由中國信息通信研究院和中國通信標準化協會聯合主辦的“2021可信隱私計算高峰論壇暨數據安全產業峰會”在北京舉行。
會上各個專家從數據安全、構筑安全可信的數據互聯互通的基礎設施、圍繞隱私計算的底層關鍵技術、深入解析隱私計算的算力及通信挑戰提出了見解與看法。
數據安全
專家深入分析了政務數據流通、金融數據流通、保險數據流通面臨的問題,提出了數據安全的新觀點。將數據安全分為四層:
第一層:數據傳統安全,包括數據的保密性、完整性和可用性。
第二層:數據作為生產要素在流通過程中的權益和安全。
第三層:互聯網平臺企業收集海量數據形成的數據霸權。
第四層:可能影響國家安全的數據主權。
這四層互聯互通。例如,個人隱私保護本質上是屬于數據保密性的范疇,但在大數據環境下,也與第二層和第四層相關。
專家表示:只有安全地使用數據,數據作為生產要素的價值才能得到釋放。在數據安全流通領域,為公共數據和社會數據按需安全開放創造更多應用場景,推動數字化轉型,激發數字經濟活力將成為一大課題。
構筑安全可信的隱私數據
互聯互通基礎設施
隱私計算技術發展到現階段面臨著一個臨界點,即隱私計算能否從一項創新型技術走向大規模生產和應用。在這個過程中,隱私計算的技術服務商面臨兩大挑戰:
一:如何在實際業務中更廣泛地應用隱私計算?
隱私計算作為保障數據隱私安全的技術,必然會入侵和影響現有的數據業務系統。對于試圖引入隱私計算的客戶來說,隱私計算技術服務商能否打消他們對業務受損的擔憂,是客戶能夠深度擁抱隱私計算的前提。因此,降低隱私計算帶來的性能損失,提高隱私計算平臺的通用性和可擴展性,為現有數據服務中的上下游系統提供充分的兼容性,是隱私計算技術服務商需要考慮的關鍵問題。
二: 如何充分信任隱私計算的安全性?
雖然從技術角度來看,隱私計算的每一條技術路線都有其自證的邏輯,但對于最終客戶來說,對這項技術信任的建立不能僅僅依靠技術論證本身。做好技術標準化,實現技術棧自主可控國產化,建立權威和監管機構認可的標準體系,也是隱私計算廠商需要推動和解決的問題。

面對上述一系列挑戰隱私計算技術發展的六大突破總結如下:
1.多技術路線有機融合:
通過實現跨技術路線的互聯互通,降低不同技術路線客戶的選型成本。
2.國產化生態深化:
隱私計算上下游與數據庫、數據治理等國產軟件服務商形成深度合作。
3.軟硬件深度優化突破:
性能層面,通過軟硬件深度優化實現計算效能的突破。
4.隱私計算的可信增強:
通過技術和非技術手段具有更強的可信度。
5.離線計算全面覆蓋:
在隱私計算目前覆蓋的建模訓練、統計分析等線下場景之外,針對數據處理等線上場景,擴大隱私計算技術的覆蓋范圍。
6.工業級別工程化落地:
穩定性和可用性方面,面對數億樣本甚至更大的數據量級,隱私計算平臺的生產可用性仍有保障。

高性能算力加速構建數據
安全流通網絡
人工智能的發展與大數據息息相關。AI 的成功基于大量的數據。但在行業內,由于數據安全相關法律法規的相繼頒布實施,對數據的管理和使用日趨嚴格。醫療、政務、金融等高質量、規模化的數據通常以數據孤島的形式分散在不同的機構和行業,難以聚集起來進行人工智能建模。

在嚴監管的情況下,解決數據供給和數據安全防護的雙重需求逐漸成為各行業普遍存在的問題。因此,“數據可用不可見、數據不動模型動”的特性使其迅速“出圈”,備受業界關注。就像一條小溪流入江河大海。借助深度學習技術,把分屬于不同機構的數據匯集在一起,分離數據所有權和使用權,將小數據聚合成大數據,以安全合規的方式進行建模培訓,是企業數字化轉型的重要支撐。
從技術層面來看,在原始數據不出域的前提下,實現了數據價值的高效轉移,既滿足了監管對數據安全保護的要求,又使得數據生產要素功能的高效轉移成為可能,同時釋放了人工智能和機器學習工業應用的增量需求。
作為人工智能和大數據的重要關鍵技術延伸,深度學習技術大規模應用于政務、金融、醫療等領域漸成重要趨勢。然而,由于深度學習中大量密碼算法的引入,效率是大規模深度學習系統的關鍵挑戰。
不解決算力和通信問題,隱私計算的大規模應用將無從談起。面對隱私計算的算力和通信壓力,通過對隱私計算的大量實驗和分析,深度學習的計算能力挑戰主要來自兩個方面:
計算壓力
深度學習使用大量的密文計算,加密后的數據計算會產生大量的計算能力開銷,單模型訓練和迭代的耗時會呈指數級增長。即使使用最小位數進行加密計算,如1024bit密鑰位寬,相較于明文計算慢數十倍。隨著秘鑰位寬的增加,隱私計算的實際運算效率會出現指數級的差異。
通信壓力
與傳統的分布式學習技術相比,現在的學習模型分布在不同機構和行業的參與方。因此,深度學習的實際應用往往需要頻繁的通信來交換中間結果,并且使用秘密狀態來傳輸中間結果,進一步降低了數據傳輸的效率。
藍海大腦深度學習平臺廣泛應用于各個領域,液冷GPU工作站搭建于 NVIDIA 4 × A100 / 3090 / P6000 / RTX6000;使用 NVLink + NVSwitch的最高GPU通信;4個用于 GPU Direct RDMA的NIC(1:1 GPU比率);最高4 x NVMe用于GPU系統盤,帶有 AIOM。為隱私計算的發展保駕護航。
|