一分鐘科普“數據湖”
什么是數據湖?
數據湖(Data Lake)概念最早由CITO Research Web的CTO Dan Woods 于2011年提出。數據湖簡單的說就是一個可以存儲大量數據的并行信息系統,可以在不需要另外移動數據的情況下進行數據運算、分析。
數據湖的價值?
目前,人們已經見證了大數據在進行決策制定、降低運營成本、優化產能等方面產生的巨大商業價值。而數據湖是目前大數據分析領域最新最火的概念,很多廠商都聲稱數據湖是推動和充分利用大數據分析技術的關鍵。數據湖的設計理念允許將不同來源的數據都集中到一個未經管理的數據湖當中,而不是保持各種獨立管理的數據集合,其設計初衷就是為了解決信息孤島的問題。
數據湖系統將數據集中存儲在一個存儲盤陣,使得所有數據能夠快速積極的響應商業環境和研究目的的變化。同時,數據湖不再局限于結構化或半結構化數據,而是能夠對幾乎所有類型的數據在不需要預定義模型的情況下進行分析。因此,數據湖能夠提供多維度、全方位、實時的數據信息支持,其數據架構體系也更加靈活,擴展性也更強。
數據湖的缺陷?
數據湖作為目前還在研發、探索當中的新的數據架構模式,其關注重點一直放在如何保存不同類型的數據,卻忽視了如何使用數據以及為什么要使用數據、如何監管數據、如何定義和分類數據,以及如何確保數據安全等問題。具體表現:
首先,數據湖中的數據質量難以保證。理論上講,數據湖可以在不受任何監督或管理的條件下接收任何類型的數據。然而,事實證明,如果不對數據進行合理的定義和維護,那數據湖很快就會變成數據沼澤,因此有效的數據治理是數據湖技術的核心。
其次,數據湖存在安全風險。數據在不受內容監管的情況下被放入數據湖當中,而目前的安全防范和訪問控制技術仍不成熟,這就意味著很多隱私數據將暴露于風險之下。從企業的角度,安全保護必須貫穿整個數據的生命周期,從接收數據的第一天起就正視安全問題,明確規定可以引入數據湖的數據類型,并制定和及時調整數據湖中的各類數據的使用權限。
如何構建數據湖?
綜數據湖一般由四部分組成:結構化或非結構化數據源、信息存儲系統、數據治理系統、數據分析系統。具體搭建一個有效的數據湖解決方案非常復雜:首先,必須為每個分析用例部署并配置正確的分析系統;然后,為其分配相應的存儲;一旦設置環境被創建,則要求數據必須在所有正確的訪問權限和管理應用到數據集的情況下加載。
數據湖的愿景?
成熟的數據湖將支撐大數據分析成為企業戰略的核心組成部分,使得企業能夠消除所有業務應用和分析應用之間的壁壘,建立一個全覆蓋、單一的企業平臺。
- 上一篇:呈現數據背后的故事--典型BI可視化技術綜述
- 下一篇:金融服務具有顯著特征